騰訊推出「混元T1」正式版推理能力提升對齊人類偏好

騰訊推出「混元T1」正式版

推理能力提升對齊人類偏好

23/03/2025

16618

上周五晚，騰訊正式推出自研強推理模型「混元T1」正式版。該模型即為此前在AI聊天機器人元寶APP上小範圍測試的T1，2月中旬曾和DeepSeek R1一起在元寶APP上提供模型服務。騰訊稱混元T1通過大規模強化學習，並結合數學、邏輯推理、科學和代碼等理科難題的專項優化，進一步提升了推理能力。

財新報道，混元T1是騰訊混元發布的第一款推理模型。推理模型是指模型在預訓練之後的階段採用強化學習、思維鏈的技術，進一步「訓練」提高模型處理複雜邏輯推理任務的能力。混元團隊介紹，在模型後訓練階段，96.7%的算力投入到了強化學習訓練，重點圍繞純推理能力的提升以及對齊人類偏好的優化。

OpenAI於2024年9月率先推出o1模型讓業界轉向推理模型，而後DeepSeek於1月20日推出的R1模型也是推理模型，憑借頂尖的能力引發了廣泛討論。此後，各大互聯網廠商均在發佈自研的推理模型，除騰訊、阿里先後推出T1、QwQ-32B兩個推理模型，百度則在3月17日推出首個推理模型X1。

擅長超長文處理

混元T1已經上線騰訊雲，即將在騰訊元寶APP灰度上線，騰訊表示，已經安排加急。財新通過騰訊內部人士瞭解，該模型預計到3月底左右開源。

騰訊將混元T1的優勢總結為「吐字快、能秒回，還擅長超長文處理」，混元T1能有效解決長文推理中常見的上下文丟失和長距離信息依賴問題。能力指標方面，在大語言模型評估增強數據集MMLU-PRO中，混元T1取得87.2分，高於DeepSeek R1，僅次於OpenAI的o1。

定價比百度及DeepSeek-R1低

混元T1正式版沿用了騰訊此前推出的「快思考」模型混元Turbo S的創新架構，騰訊此次把傳統的模型架構和一種叫「Mamba」的新架構結合起來，Mamba擅長快速處理長文本信息，且更節省內存與算力，因此混元T1顯著降低了訓練和推理成本。騰訊稱，這是工業界首次將混合Mamba架構無損應用於超大型推理模型。

混元T1的API調用輸入價格為1元/百萬tokens（字符串），輸出價格為4元/百萬tokens。混元T1當前的定價比百度的X1低50%，比DeepSeek-R1低約75%。

騰訊的「元寶」是同類產品中第一個公開接入第三方模型的產品，在2月13日上線DeepSeek R1模型後，騰訊在財報中稱其日活用戶數量在2月至3月激增超20倍。（編輯部）

推理能力提升對齊人類偏好