近日,中國移動研究院聯(lián)合中國移動黑龍江公司在中國移動(哈爾濱)數(shù)據(jù)中心完成了首個面向 PP 訓(xùn)練的 OTN 承載百公里級智算分布式協(xié)同現(xiàn)網(wǎng)技術(shù)試驗。該試驗的成功,為業(yè)界提供了一種全新的技術(shù)路線和詳實的試驗數(shù)據(jù),有助于推動智算分布式協(xié)同技術(shù)的發(fā)展。
隨著智算集群規(guī)模的不斷擴(kuò)大,單智算節(jié)點的持續(xù)擴(kuò)容面臨著電力供應(yīng)、機(jī)房空間等方面的巨大挑戰(zhàn)。此外,由于智算中心的建設(shè)存在分地域、分時期、分階段等情況,導(dǎo)致算力資源分散,形成了“算力孤島”。為了解決這些問題,智算分布式協(xié)同技術(shù)應(yīng)運而生。
智算分布式協(xié)同技術(shù)可以將分布式部署的智算節(jié)點進(jìn)行高效的互聯(lián),充分發(fā)揮算力資源的最大效能。然而,如何將這些分布式的智算節(jié)點高效地連接起來,是業(yè)界亟需研究的關(guān)鍵問題。OTN 作為一種大帶寬、低時延、高可靠的傳輸技術(shù),具有構(gòu)建跨集群分布式訓(xùn)練的潛在優(yōu)勢。
在本次技術(shù)試驗中,中國移動研究院基于 800G OTN 互聯(lián)的兩個智算集群上運行了 700 億級參數(shù)的大型基礎(chǔ)語言模型。在 64 張 GPU 卡、4 個 PP 域分別在相距 104km 的兩個節(jié)點部署場景下,實現(xiàn)了等同單節(jié)點訓(xùn)練效率 98%以上的高效協(xié)同訓(xùn)練。這一成果首次驗證了 OTN 承載基于 PP 的百公里跨集群訓(xùn)練的可行性,為分布式智算技術(shù)的演進(jìn)提供了新的技術(shù)路線和試驗數(shù)據(jù)。
此外,中國移動研究院還創(chuàng)新提出了面向智算分布式協(xié)同的 OTN 無損倒換技術(shù)方案,通過芯片級算法實現(xiàn)了傳輸鏈路斷纖、誤碼時訓(xùn)練效率的無損和無感知。這一技術(shù)方案的提出,進(jìn)一步提高了智算分布式協(xié)同技術(shù)的可靠性和穩(wěn)定性。
自 2023 年起,中國移動研究院聯(lián)合國內(nèi)合作伙伴,開展跨集群分布式訓(xùn)練互聯(lián)技術(shù)攻關(guān),創(chuàng)新提出基于 OTN 的智算分布式協(xié)同架構(gòu),并首次完成了 2-100 公里不同距離多場景下 OTN 承載分布式智算技術(shù)試驗。這些成果在光通信頂會 ECOC 上發(fā)表,引起了業(yè)界的廣泛關(guān)注。
未來,中國移動將圍繞智算分布式協(xié)同深入推進(jìn)關(guān)鍵技術(shù)攻關(guān)、原型研發(fā)與試驗驗證,探索分布式智算中心新模式。相信在中國移動的努力下,智算分布式協(xié)同技術(shù)將不斷發(fā)展完善,為推動人工智能產(chǎn)業(yè)的發(fā)展做出更大的貢獻(xiàn)。