上周五晚,騰訊正式推出自研強推理模型「混元T1」正式版。該模型即為此前在AI聊天機器人元寶APP上小範圍測試的T1,2月中旬曾和DeepSeek R1一起在元寶APP上提供模型服務。騰訊稱混元T1通過大規模強化學習,並結合數學、邏輯推理、科學和代碼等理科難題的專項優化,進一步提升了推理能力。
財新報道,混元T1是騰訊混元發布的第一款推理模型。推理模型是指模型在預訓練之後的階段採用強化學習、思維鏈的技術,進一步「訓練」提高模型處理複雜邏輯推理任務的能力。混元團隊介紹,在模型後訓練階段,96.7%的算力投入到了強化學習訓練,重點圍繞純推理能力的提升以及對齊人類偏好的優化。
OpenAI於2024年9月率先推出o1模型讓業界轉向推理模型,而後DeepSeek於1月20日推出的R1模型也是推理模型,憑借頂尖的能力引發了廣泛討論。此後,各大互聯網廠商均在發佈自研的推理模型,除騰訊、阿里先後推出T1、QwQ-32B兩個推理模型,百度則在3月17日推出首個推理模型X1。
擅長超長文處理
混元T1已經上線騰訊雲,即將在騰訊元寶APP灰度上線,騰訊表示,已經安排加急。財新通過騰訊內部人士瞭解,該模型預計到3月底左右開源。
騰訊將混元T1的優勢總結為「吐字快、能秒回,還擅長超長文處理」,混元T1能有效解決長文推理中常見的上下文丟失和長距離信息依賴問題。能力指標方面,在大語言模型評估增強數據集MMLU-PRO中,混元T1取得87.2分,高於DeepSeek R1,僅次於OpenAI的o1。
定價比百度及DeepSeek-R1低
混元T1正式版沿用了騰訊此前推出的「快思考」模型混元Turbo S的創新架構,騰訊此次把傳統的模型架構和一種叫「Mamba」的新架構結合起來,Mamba擅長快速處理長文本信息,且更節省內存與算力,因此混元T1顯著降低了訓練和推理成本。騰訊稱,這是工業界首次將混合Mamba架構無損應用於超大型推理模型。
混元T1的API調用輸入價格為1元/百萬tokens(字符串),輸出價格為4元/百萬tokens。混元T1當前的定價比百度的X1低50%,比DeepSeek-R1低約75%。
騰訊的「元寶」是同類產品中第一個公開接入第三方模型的產品,在2月13日上線DeepSeek R1模型後,騰訊在財報中稱其日活用戶數量在2月至3月激增超20倍。 (編輯部)