5月16日,中國移動研究院副院長段曉東受邀參加2024世界電信日和信息社會日大會“智算融合創(chuàng)新發(fā)展論壇”,發(fā)表《大規(guī)模超萬卡新型智算集群的思考與展望》主題演講。
段曉東表示,大模型的競爭熱潮正在驅(qū)動智算中心從千卡集群向萬卡甚至超萬卡集群演進(jìn)。但超萬卡集群的建設(shè)仍處于起步階段,仍有很多問題亟待解決,中國移動大力推進(jìn)全調(diào)度以太網(wǎng)GSE、全向智感互聯(lián)OISA、算力原生等原創(chuàng)核心技術(shù)成熟,為超萬卡集群的創(chuàng)新突破做好技術(shù)儲備。
段曉東在演講中提到,當(dāng)前大算力仍然是大模型創(chuàng)新落地的關(guān)鍵,隨著萬億模型的出現(xiàn),包括Google、Meta等在內(nèi)的國內(nèi)外大型科技公司都在積極投建萬卡或超萬卡集群,中國移動也正在內(nèi)蒙古等地建設(shè)一批超萬卡集群。然而在國外高端芯片斷供的背景下,構(gòu)建基于國產(chǎn)生態(tài)體系、技術(shù)領(lǐng)先的超萬卡集群將面臨諸多挑戰(zhàn),包括極致算力使用效率的挑戰(zhàn)、海量數(shù)據(jù)處理能力的挑戰(zhàn)、超大互聯(lián)規(guī)模的挑戰(zhàn)、集群高可用易運維的挑戰(zhàn)以及高能耗高密度機(jī)房設(shè)計的挑戰(zhàn)。
為此,中國移動提出了全調(diào)度以太網(wǎng)GSE、全向智感互聯(lián)OISA和芯合算力原生等原創(chuàng)技術(shù),攻關(guān)智算中心Scale Out網(wǎng)絡(luò)和Scale Up互聯(lián)問題,解決跨架構(gòu)遷移和混合分布式訓(xùn)練難題。同時,為了解決因機(jī)房、供電、散熱等因素限制單體智算中心規(guī)模的問題,中國移動正在著力研究跨集群分布式訓(xùn)練場景,通過在模型算法、平臺調(diào)度、傳輸承載等不同層級的協(xié)同優(yōu)化,解決大模型長距離分布式訓(xùn)練的難題。
段曉東表示,中國移動在構(gòu)建超萬卡集群過程中,積累了非常寶貴的實踐經(jīng)驗,同時也遇到了不少難題,希望產(chǎn)業(yè)凝聚共識,一起應(yīng)對超萬卡集群建設(shè)和運營帶來的前所未有的挑戰(zhàn),共同實現(xiàn)國產(chǎn)智算設(shè)施的又一次跨越式發(fā)展。