全由AI代理組成的公司會怎樣?

研究:只能完成原本四分一任務
29/04/2025
5449
收藏
分享
研究:只能完成原本四分一任務

在人工智能(AI)技術蓬勃發展下,AI 代理人(Agent)被寄予厚望,認為未來將能獨立完成各種任務,甚至取代部分人類工作。不過,卡內基美隆大學(Carnegie Mellon University)一項最新實驗結果卻潑了冷水:全由 AI 代理人組成的公司,完成率竟然不到四分之一。

該實驗由電腦科學家 Graham Neubig 團隊設計,模擬了一家虛構的小型軟件公司「TheAgentCompany」,設置了內部網站、聊天應用程式(類似 Slack)、員工手冊,並安排虛擬的HR經理與技術長提供協助。AI代理人分別擔任金融分析師、軟體工程師和專案經理等角色,負責瀏覽網頁、編寫程式、整理試算表資訊,以及與同事溝通合作。

研究團隊設計了多種與真實公司日常運作相符的任務,包括分析連鎖咖啡店的資料庫、撰寫工程師績效評估報告、觀看辦公室導覽影片並選擇最佳地點等。受測的AI包括Google的 Gemini、Anthropic的Claude、Amazon的Nova,以及Meta的模型等。

最佳情況是完成24%

結果顯示,表現最佳的是Anthropic的Claude 3.5 Sonnet,僅完成24%的任務;Google的Gemini 2.0 Flash完成率11.4%,Amazon的Nova Pro v1表現最差,僅完成1.7%。即便是最強的模型,完成率也不到四分之一。

在執行任務時,AI代理人常因缺乏常識、社交能力或技術細節處理能力而失誤。例如,在需要將回覆內容貼入 Word 文件的任務中,AI將文件誤認為純文字檔,無法正確操作;在指派新專案負責人時,AI也因無法關閉彈出式視窗而無法順利進行,後續未持續追蹤,導致任務最終失敗。

此外,AI代理人也出現自欺式行為,如為了完成指派任務,將聊天室中其他用戶的名字改成目標用戶,試圖「取巧」過關,但反而導致錯誤更多。

實驗中,AI在軟體開發相關任務的表現相對較好,推測是因為此領域有大量開放的訓練數據。但在行政與財務任務上,因涉及公司內部專業流程且資料較少,AI的能力明顯不足。

此外,實驗中使用的AI代理人並非最新版本,且對於像網頁瀏覽等複雜操作的熟練度仍低,研究團隊指出,隨著OpenAI的Operator等新技術推出,未來表現可能會有所改善。

企業界對AI期待未減

儘管實驗結果令人失望,但企業界對AI代理人的期待未減。根據德勤(Deloitte)針對超過2,500名高階主管的調查,超過四分之一的受訪者表示,他們的組織正在「大規模或非常大規模」探索AI代理的應用。

Salesforce 執行長近期表示,現今的CEO 將領導最後一批完全由人類組成的勞動力。英偉達執行長黃仁勳更預測,每家公司 IT 部門很快將成為「AI 代理人的人資部門」。OpenAI執行長Sam Altman則預期,今年AI代理人將正式「加入勞動力大軍」。然而,實驗提醒我們,現階段 AI 離真正獨立勝任複雜任務仍有距離。 (編輯部)

檢舉
檢舉類型:
具體描述:
提交
取消
評論
發佈

力報會員可享用評論功能

註冊 / 登錄

查看更多評論
收藏
分享

相關新聞

推薦新聞

找不到相關內容

七日預報