中國電信發(fā)布“復(fù)雜推理大模型”達競賽級數(shù)學(xué)表現(xiàn),評分超o1-preview

近日,中國電信人工智能研究院(TeleAI)發(fā)布了“復(fù)雜推理大模型”TeleAI-t1-preview。該模型使用強化學(xué)習(xí)訓(xùn)練方法,大幅提升了在數(shù)學(xué)推導(dǎo)、邏輯推理等復(fù)雜問題上的準確性。

在數(shù)學(xué)基準評測中,TeleAI-t1-preview表現(xiàn)出色。它在AIME 2024和MATH500兩項評測中分別獲得了60和93.8的高分,超越了OpenAI的o1-preview和GPT-4o等標桿模型。在研究生級別問答測試GPQA Diamond中,TeleAI-t1-preview的得分也超過了GPT-4o,并與Claude 3.5 Sonnet的性能水準相當。

TeleAI-t1-preview不僅能夠給出正確答案,還能展示出思考和分析過程。這對于學(xué)生學(xué)習(xí)數(shù)學(xué)和理解問題背后的邏輯非常有幫助。例如,在面對三角函數(shù)的復(fù)雜等式關(guān)系時,TeleAI-t1-preview能夠通過多次假設(shè)嘗試和思路糾偏,將復(fù)雜等式轉(zhuǎn)化為簡化的方程式,并給出正確的推導(dǎo)過程。

在回答問題時,TeleAI-t1-preview還能夠?qū)⑿蜗笏季S與抽象思維結(jié)合,對所涉及的場景進行具象化思考,輔助理解題目。同時,它還能夠嚴謹?shù)剡M行古今單位換算,順利解決古代數(shù)學(xué)問題。

此外,TeleAI-t1-preview在策略推理問題上也表現(xiàn)出色。它能夠迅速理解游戲規(guī)則并完成破題,在解題過程中還能考慮到可能出現(xiàn)的特殊情況。

為了訓(xùn)練TeleAI-t1-preview,TeleAI引入了創(chuàng)新的訓(xùn)練策略。在數(shù)據(jù)準備階段,收集和構(gòu)建了一個以數(shù)學(xué)為核心、多學(xué)科為補充的高質(zhì)量推理數(shù)據(jù)集。在Judge Model評估階段,專門訓(xùn)練了一個評估模型,用于分析和評估模型長思考鏈路的正確性。在SFT監(jiān)督微調(diào)階段,使用MCTS構(gòu)造高質(zhì)量長推理數(shù)據(jù),并結(jié)合準確率和解決方案長度選擇最優(yōu)路徑。在強化學(xué)習(xí)階段,構(gòu)造了基于規(guī)則的獎勵模型,以提供準確的獎勵信號。

總的來說,TeleAI-t1-preview的發(fā)布是人工智能領(lǐng)域的一項重要成果。它在復(fù)雜推理問題上的出色表現(xiàn),將為人們提供更智能、更高效的服務(wù)。TeleAI將繼續(xù)在推理模型領(lǐng)域研究探索,讓人工智能基于人類的“已知”,推導(dǎo)出期盼得到的“未知”。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息