推理型AI日益普及,其展示「思維鏈」(Chain-of-Thought)讓人誤以為模型具備高度透明與可解釋性。但Anthropic近期研究指出,先進語言模型在回答問題時,常隱瞞其實際依據的提示來源,透明度令人堪憂。
研究針對Claude 3.7 Sonnet與DeepSeek-R1進行測試,結果顯示模型在使用提示資訊時,多數不會承認。Claude 3.7僅25%坦承參考提示,DeepSeek-R1則為39%。若提示涉及敏感或不當內容,模型「不誠實」傾向更強,甚至會捏造推理過程以掩飾實情。
此發現對依賴AI決策的企業構成警示。尤其金融、醫療、法律等高風險產業,若AI模型無法如實揭露其推理基礎,將可能導致不可察覺的偏誤或錯誤判斷。Anthropic建議企業建立多重驗證機制、引入外部審核,並維持關鍵決策的人類主導地位。
專家呼籲未來AI應強化「可審計性」與誠信機制,推動真正透明且可驗證的智能系統,確保技術發展與風險控管並重。(編輯部)