11月30日,由中國通信學(xué)會主辦、中國移動研究院承辦的2024中國信息通信大會“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”在成都順利召開,引發(fā)業(yè)界的高度關(guān)注。會議吸引了眾多業(yè)界精英,包括中國移動研究院副院長段曉東、天數(shù)智芯、壁仞科技、中興、海光、瀚博等科技大咖和產(chǎn)業(yè)合作伙伴,共商智能算力和人工智能(AI)發(fā)展的大計。在本次的論壇上,China Mobile Research Institute攜手合作伙伴共同發(fā)布了“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)1.0,旨在進(jìn)一步推動我國智能算力和人工智能的發(fā)展。
在信息化快速發(fā)展的今天,人工智能已經(jīng)成為推動社會數(shù)字化轉(zhuǎn)型的關(guān)鍵驅(qū)動力。而智能算力,作為人工智能發(fā)展的基石,continuously推動著我們從單點突破向泛在智能轉(zhuǎn)型。然而,當(dāng)前我國的智能計算行業(yè)面臨一系列的挑戰(zhàn):智算芯片在計算架構(gòu)、軟件棧、互聯(lián)方式等方面存在差異,形成了智算芯片間的“資源墻”。這意味著,不僅難以形成“合力”,而且限制了多樣性智能算力的靈活應(yīng)用和整體效能的釋放。
針對上述問題,中國移動充分發(fā)揮移動信息現(xiàn)代產(chǎn)業(yè)鏈的“鏈長”職責(zé),傾力打造業(yè)內(nèi)首個“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng),支持大模型在多廠商、多代際、多架構(gòu)的異構(gòu)混合集群上的規(guī)模訓(xùn)練。該系統(tǒng)具有基于非均勻計算任務(wù)切分的ITD(Inhomogeneous Task Distribution)算法的3D并行策略,以及基于GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信技術(shù)兩大核心能力。
基于ITD算法的3D并行技術(shù),通過通用混合訓(xùn)練框架,可以實現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行,并實現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整。而基于GDR的異構(gòu)芯片高速通信技術(shù),則可以在不改變芯片原有通信接口的基礎(chǔ)上,通過定義數(shù)據(jù)傳輸架構(gòu)、流程和接口標(biāo)準(zhǔn),屏蔽底層硬件差異,實現(xiàn)頂級訓(xùn)練任務(wù)在異構(gòu)算力集群上的分布式通信的無感拆分。
目前,這一“芯合”異構(gòu)混合并行訓(xùn)練系統(tǒng)已經(jīng)實現(xiàn)了對百億參數(shù)大模型在英偉達(dá)、天數(shù)智芯、壁仞科技、海光等四家智能計算芯片上的交叉混合訓(xùn)練,規(guī)模可支持萬卡集群,訓(xùn)練加速比達(dá)到了95%以上,處在業(yè)界領(lǐng)先水平。這一成果對于提升智能算力資源利用率、促進(jìn)國產(chǎn)算力發(fā)展,以及推廣人工智能技術(shù)都具有重要的意義。
面向未來,中國移動將積極拓寬合作,與眾多產(chǎn)業(yè)合作伙伴共同推進(jìn)“芯合”異構(gòu)混訓(xùn)系統(tǒng)的能力升級,共同打造開放的智算算力生態(tài)體系。同時,該系統(tǒng)也將有助于孵化萬億級參數(shù)大模型訓(xùn)練,推動全行業(yè)“AI+”轉(zhuǎn)型升級,并有助于我國算力強(qiáng)國戰(zhàn)略的落地實施。