中國電信發(fā)布“復雜推理大模型”達競賽級數(shù)學表現(xiàn),評分超o1-preview

近日,中國電信人工智能研究院(TeleAI)發(fā)布了“復雜推理大模型”TeleAI-t1-preview。該模型使用強化學習訓練方法,大幅提升了在數(shù)學推導、邏輯推理等復雜問題上的準確性。

在數(shù)學基準評測中,TeleAI-t1-preview表現(xiàn)出色。它在AIME 2024和MATH500兩項評測中分別獲得了60和93.8的高分,超越了OpenAI的o1-preview和GPT-4o等標桿模型。在研究生級別問答測試GPQA Diamond中,TeleAI-t1-preview的得分也超過了GPT-4o,并與Claude 3.5 Sonnet的性能水準相當。

TeleAI-t1-preview不僅能夠給出正確答案,還能展示出思考和分析過程。這對于學生學習數(shù)學和理解問題背后的邏輯非常有幫助。例如,在面對三角函數(shù)的復雜等式關系時,TeleAI-t1-preview能夠通過多次假設嘗試和思路糾偏,將復雜等式轉(zhuǎn)化為簡化的方程式,并給出正確的推導過程。

在回答問題時,TeleAI-t1-preview還能夠?qū)⑿蜗笏季S與抽象思維結(jié)合,對所涉及的場景進行具象化思考,輔助理解題目。同時,它還能夠嚴謹?shù)剡M行古今單位換算,順利解決古代數(shù)學問題。

此外,TeleAI-t1-preview在策略推理問題上也表現(xiàn)出色。它能夠迅速理解游戲規(guī)則并完成破題,在解題過程中還能考慮到可能出現(xiàn)的特殊情況。

為了訓練TeleAI-t1-preview,TeleAI引入了創(chuàng)新的訓練策略。在數(shù)據(jù)準備階段,收集和構(gòu)建了一個以數(shù)學為核心、多學科為補充的高質(zhì)量推理數(shù)據(jù)集。在Judge Model評估階段,專門訓練了一個評估模型,用于分析和評估模型長思考鏈路的正確性。在SFT監(jiān)督微調(diào)階段,使用MCTS構(gòu)造高質(zhì)量長推理數(shù)據(jù),并結(jié)合準確率和解決方案長度選擇最優(yōu)路徑。在強化學習階段,構(gòu)造了基于規(guī)則的獎勵模型,以提供準確的獎勵信號。

總的來說,TeleAI-t1-preview的發(fā)布是人工智能領域的一項重要成果。它在復雜推理問題上的出色表現(xiàn),將為人們提供更智能、更高效的服務。TeleAI將繼續(xù)在推理模型領域研究探索,讓人工智能基于人類的“已知”,推導出期盼得到的“未知”。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網(wǎng)絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5GNTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息