近期,Icaro Lab 發表了一項關於 AI 安全性的研究,揭示了透過詩歌技巧可以突破大型語言模型(LLMs)安全防線的潛在風險。這項名為《詩歌作為通用單回合越獄機制的研究》指出,詩歌形式可作為一種有效的「越獄工具」,幫助用戶繞過 AI 聊天機器人的安全機制。
研究測試了多個主流的 LLM,包括 OpenAI 的 GPT 系列模型、Google Gemini 和 Anthropic 的 Claude 等。結果顯示,透過詩歌結構修改提示詞,研究人員成功地在 62% 的測試中取得了被限制的回應,例如製造核武、非法資訊等敏感話題。其中,Google Gemini、DeepSeek 和 MistralAI 的回應率最高,而 OpenAI 的 GPT-5 和 Anthropic 的 Claude Haiku 4.5 則顯著較難突破。
儘管研究未公開完整的詩歌範例,但研究人員向外媒《Wired》表示,這些詩歌範例過於敏感,無法公諸於世。該團隊提供了一些簡化的範例,展示了該技術的可行性,並強調該方法的實現比大多數人預想的更為容易,這也是他們謹慎對待的原因。該研究的發現再次強調了人工智慧安全設計的重要性,並呼籲業界加強防範措施,以應對 AI 技術日益複雜的挑戰。










