中國移動研究院段曉東:構(gòu)建超萬卡新型智算集群需要科學(xué)技術(shù)的創(chuàng)新突破

5月16日,中國移動研究院副院長段曉東受邀參加2024世界電信日和信息社會日大會“智算融合創(chuàng)新發(fā)展論壇”,發(fā)表《大規(guī)模超萬卡新型智算集群的思考與展望》主題演講。

段曉東表示,大模型的競爭熱潮正在驅(qū)動智算中心從千卡集群向萬卡甚至超萬卡集群演進(jìn)。但超萬卡集群的建設(shè)仍處于起步階段,仍有很多問題亟待解決,中國移動大力推進(jìn)全調(diào)度以太網(wǎng)GSE、全向智感互聯(lián)OISA、算力原生等原創(chuàng)核心技術(shù)成熟,為超萬卡集群的創(chuàng)新突破做好技術(shù)儲備。

段曉東在演講中提到,當(dāng)前大算力仍然是大模型創(chuàng)新落地的關(guān)鍵,隨著萬億模型的出現(xiàn),包括Google、Meta等在內(nèi)的國內(nèi)外大型科技公司都在積極投建萬卡或超萬卡集群,中國移動也正在內(nèi)蒙古等地建設(shè)一批超萬卡集群。然而在國外高端芯片斷供的背景下,構(gòu)建基于國產(chǎn)生態(tài)體系、技術(shù)領(lǐng)先的超萬卡集群將面臨諸多挑戰(zhàn),包括極致算力使用效率的挑戰(zhàn)、海量數(shù)據(jù)處理能力的挑戰(zhàn)、超大互聯(lián)規(guī)模的挑戰(zhàn)、集群高可用易運維的挑戰(zhàn)以及高能耗高密度機(jī)房設(shè)計的挑戰(zhàn)。

為此,中國移動提出了全調(diào)度以太網(wǎng)GSE、全向智感互聯(lián)OISA和芯合算力原生等原創(chuàng)技術(shù),攻關(guān)智算中心Scale Out網(wǎng)絡(luò)和Scale Up互聯(lián)問題,解決跨架構(gòu)遷移和混合分布式訓(xùn)練難題。同時,為了解決因機(jī)房、供電、散熱等因素限制單體智算中心規(guī)模的問題,中國移動正在著力研究跨集群分布式訓(xùn)練場景,通過在模型算法、平臺調(diào)度、傳輸承載等不同層級的協(xié)同優(yōu)化,解決大模型長距離分布式訓(xùn)練的難題。

段曉東表示,中國移動在構(gòu)建超萬卡集群過程中,積累了非常寶貴的實踐經(jīng)驗,同時也遇到了不少難題,希望產(chǎn)業(yè)凝聚共識,一起應(yīng)對超萬卡集群建設(shè)和運營帶來的前所未有的挑戰(zhàn),共同實現(xiàn)國產(chǎn)智算設(shè)施的又一次跨越式發(fā)展。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息