據《Forbes》報道,HiddenLayer最新研究指出,生成式人工智能(AI)供應商對大型語言模型(LLM)安全性的信心可能存在嚴重缺陷。研究團隊發現,一種名為「策略傀儡」(Policy Puppetry)的旁路攻擊技術,能操縱幾乎所有主流LLM,無論供應商、架構或訓練流程如何。
策略傀儡透過簡單且有效的提示注入技術,利用系統配置語言重新定義惡意意圖,繞過傳統對齊保護。它引入類似XML或JSON的提示結構,誘使模型將有害命令當作正常指令處理。受影響系統包括OpenAI的ChatGPT、Google的Gemini、Anthropic的Claude、Microsoft的Copilot、Meta的LLaMA系列等。
該技術特別依賴虛構場景,如電視劇情節,誘騙模型輸出製造有害物質的方法,甚至能提取系統提示內容,暴露模型行為邊界並助長進一步攻擊。
HiddenLayer建議採用雙層防禦策略,透過外部AI監控平台如AISec和AIDR,持續偵測提示注入與濫用行為,即時應對威脅,而非單靠模型再訓練或微調。(編輯部)