斯坦福AI報告：中美大模型差距迅速縮小

斯坦福AI報告：

中美大模型差距迅速縮小

09/04/2025

18567

斯坦福大學以人為本人工智能研究所（Stanford HAI）近日發布長達456頁的《2025年人工智能指數報告》，全面分析全球人工智能發展現況。報告指出，雖然2023年美國在AI大型語言模型（LLM）性能上領先中國顯著，但截至2024年底，中國模型在多項基準測試中已急起直追，兩國差距顯著縮小。報告亦指出，中國AI研發與應用熱度迅速攀升，生成式AI產品如DeepSeek Manus等嶄露頭角，顯示中國AI產業正加速追趕。

根據Stanford HAI報告內容，2023年底，美國模型在多項測試中領先中國模型幅度明顯，例如在MMLU、MMMU、MATH與HumanEval等四大基準測試中，美國模型分別領先17.5、13.5、24.3和31.6個百分點；但到了2024年底，這些差距已縮小至0.3、8.1、1.6和3.7個百分點，顯示中國AI模型實力已有顯著提升。

雖然美國仍佔據AI技術主導地位，2024年全球90%的領先AI模型來自企業，美國擁有40個代表性模型，中國則為15個。但報告同時指出，中國在AI學術論文發表量、專利申請量持續全球領先，並在電子商務、搜索引擎與教育等多個應用場景推動AI大規模落地。

報告亦指出，不只中國，中東、東南亞、拉丁美洲等地也湧現具競爭力的模型與研究團隊，全球AI發展版圖日趨多元。民意調查顯示，對AI未來持樂觀看法的中國民眾比例高達83%，遠高於美國的39%，印尼與泰國也分別達80%與77%；而加拿大、德國與法國民眾則相對保守。

大模型性能趨同

報告強調，大模型間性能差距正迅速收斂，2023年時全球TOP1與TOP10模型性能差距約為12%，但至2024年末已縮小至5%。此外，AI模型在生成高質量影片方面取得重大技術突破，並在部分場景中展現出超越人類的行為表現。

在編碼與推理領域，AI系統已能編寫特定類型的程式碼，效能與專業開發者相當甚至更高。與此同時，AI推理效率也大幅提升：2022年需用於GPT-3.5水平任務的成本，如今下降280倍；硬件運算成本以年均30%速度下滑，能效每年提升40%，AI部署成本進一步降低。

儘管如此，報告亦指出AI仍存明顯缺陷，特別是在MMMU等多模態複雜推理測試中，大型語言模型對算術與規劃任務仍表現不佳。此外，2024年全球通報的AI相關風險與災害事件達233起，較2023年激增56.4%，凸顯技術進展與安全風險需並重管理。

面對競爭加劇，中國AI企業正積極投入大模型研發與應用部署。近期，由北京智譜AI主導開發的DeepSeek系列模型獲得廣泛關注，其中DeepSeek-V2在語言理解與邏輯推理上取得突破，而DeepSeek-Coder則專注於程式生成，性能接近GPT-4，成為開源領域的重要新星。

同時，中國多家科技巨頭也紛紛投入資源打造自己的基礎模型平台，如百度文心一言、阿里通義千問、華為盤古與騰訊混元等，並強調模型開源、產業對接與生態系統構建。在政府支持下，AI模型亦加快進入醫療、金融、製造與政務等核心產業，形成廣泛落地效應。（編輯部）

中美大模型差距迅速縮小