[XF 新聞] 研究顯示 AI 聊天機械人「越獄」　透過詩歌技巧突破安全防線

- 辛尼 - 2025-12-01

近期，Icaro Lab 發表了一項關於 AI 安全性的研究，揭示了透過詩歌技巧可以突破大型語言模型（LLMs）安全防線的潛在風險。這項名為《詩歌作為通用單回合越獄機制的研究》指出，詩歌形式可作為一種有效的「越獄工具」，幫助用戶繞過 AI 聊天機器人的安全機制。

研究測試了多個主流的 LLM，包括 OpenAI 的 GPT 系列模型、Google Gemini 和 Anthropic 的 Claude 等。結果顯示，透過詩歌結構修改提示詞，研究人員成功地在 62% 的測試中取得了被限制的回應，例如製造核武、非法資訊等敏感話題。其中，Google Gemini、DeepSeek 和 MistralAI 的回應率最高，而 OpenAI 的 GPT-5 和 Anthropic 的 Claude Haiku 4.5 則顯著較難突破。

儘管研究未公開完整的詩歌範例，但研究人員向外媒《Wired》表示，這些詩歌範例過於敏感，無法公諸於世。該團隊提供了一些簡化的範例，展示了該技術的可行性，並強調該方法的實現比大多數人預想的更為容易，這也是他們謹慎對待的原因。該研究的發現再次強調了人工智慧安全設計的重要性，並呼籲業界加強防範措施，以應對 AI 技術日益複雜的挑戰。

資料來源

Ai XF 新聞

[XF 新聞] 研究顯示 AI 聊天機械人「越獄」 透過詩歌技巧突破安全防線

最新文章

[XF 新聞] 研究顯示 AI 聊天機械人「越獄」　透過詩歌技巧突破安全防線