全由AI代理組成的公司會怎樣？研究：只能完成原本四分一任務

全由AI代理組成的公司會怎樣？

研究：只能完成原本四分一任務

29/04/2025

5449

在人工智能（AI）技術蓬勃發展下，AI 代理人（Agent）被寄予厚望，認為未來將能獨立完成各種任務，甚至取代部分人類工作。不過，卡內基美隆大學（Carnegie Mellon University）一項最新實驗結果卻潑了冷水：全由 AI 代理人組成的公司，完成率竟然不到四分之一。

該實驗由電腦科學家 Graham Neubig 團隊設計，模擬了一家虛構的小型軟件公司「TheAgentCompany」，設置了內部網站、聊天應用程式（類似 Slack）、員工手冊，並安排虛擬的HR經理與技術長提供協助。AI代理人分別擔任金融分析師、軟體工程師和專案經理等角色，負責瀏覽網頁、編寫程式、整理試算表資訊，以及與同事溝通合作。

研究團隊設計了多種與真實公司日常運作相符的任務，包括分析連鎖咖啡店的資料庫、撰寫工程師績效評估報告、觀看辦公室導覽影片並選擇最佳地點等。受測的AI包括Google的 Gemini、Anthropic的Claude、Amazon的Nova，以及Meta的模型等。

最佳情況是完成24%

結果顯示，表現最佳的是Anthropic的Claude 3.5 Sonnet，僅完成24%的任務；Google的Gemini 2.0 Flash完成率11.4%，Amazon的Nova Pro v1表現最差，僅完成1.7%。即便是最強的模型，完成率也不到四分之一。

在執行任務時，AI代理人常因缺乏常識、社交能力或技術細節處理能力而失誤。例如，在需要將回覆內容貼入 Word 文件的任務中，AI將文件誤認為純文字檔，無法正確操作；在指派新專案負責人時，AI也因無法關閉彈出式視窗而無法順利進行，後續未持續追蹤，導致任務最終失敗。

此外，AI代理人也出現自欺式行為，如為了完成指派任務，將聊天室中其他用戶的名字改成目標用戶，試圖「取巧」過關，但反而導致錯誤更多。

實驗中，AI在軟體開發相關任務的表現相對較好，推測是因為此領域有大量開放的訓練數據。但在行政與財務任務上，因涉及公司內部專業流程且資料較少，AI的能力明顯不足。

此外，實驗中使用的AI代理人並非最新版本，且對於像網頁瀏覽等複雜操作的熟練度仍低，研究團隊指出，隨著OpenAI的Operator等新技術推出，未來表現可能會有所改善。

企業界對AI期待未減

儘管實驗結果令人失望，但企業界對AI代理人的期待未減。根據德勤（Deloitte）針對超過2,500名高階主管的調查，超過四分之一的受訪者表示，他們的組織正在「大規模或非常大規模」探索AI代理的應用。

Salesforce 執行長近期表示，現今的CEO 將領導最後一批完全由人類組成的勞動力。英偉達執行長黃仁勳更預測，每家公司 IT 部門很快將成為「AI 代理人的人資部門」。OpenAI執行長Sam Altman則預期，今年AI代理人將正式「加入勞動力大軍」。然而，實驗提醒我們，現階段 AI 離真正獨立勝任複雜任務仍有距離。（編輯部）

研究：只能完成原本四分一任務