​研究:大型語言模型可被操縱

導致AI洩密或提供有害建議
27/04/2025
6542
收藏
分享
導致AI洩密或提供有害建議

據《Forbes》報道,HiddenLayer最新研究指出,生成式人工智能(AI)供應商對大型語言模型(LLM)安全性的信心可能存在嚴重缺陷。研究團隊發現,一種名為「策略傀儡」(Policy Puppetry)的旁路攻擊技術,能操縱幾乎所有主流LLM,無論供應商、架構或訓練流程如何。

策略傀儡透過簡單且有效的提示注入技術,利用系統配置語言重新定義惡意意圖,繞過傳統對齊保護。它引入類似XML或JSON的提示結構,誘使模型將有害命令當作正常指令處理。受影響系統包括OpenAI的ChatGPT、Google的Gemini、Anthropic的Claude、Microsoft的Copilot、Meta的LLaMA系列等。

該技術特別依賴虛構場景,如電視劇情節,誘騙模型輸出製造有害物質的方法,甚至能提取系統提示內容,暴露模型行為邊界並助長進一步攻擊。

HiddenLayer建議採用雙層防禦策略,透過外部AI監控平台如AISec和AIDR,持續偵測提示注入與濫用行為,即時應對威脅,而非單靠模型再訓練或微調。(編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報