中國移動研究院完成首個面向流水線并行訓練的OTN承載百公里級智算分布式協同現網技術試驗

近日,中國移動研究院聯合中國移動黑龍江公司在中國移動(哈爾濱)數據中心完成了首個面向 PP 訓練的 OTN 承載百公里級智算分布式協同現網技術試驗。該試驗的成功,為業(yè)界提供了一種全新的技術路線和詳實的試驗數據,有助于推動智算分布式協同技術的發(fā)展。

隨著智算集群規(guī)模的不斷擴大,單智算節(jié)點的持續(xù)擴容面臨著電力供應、機房空間等方面的巨大挑戰(zhàn)。此外,由于智算中心的建設存在分地域、分時期、分階段等情況,導致算力資源分散,形成了“算力孤島”。為了解決這些問題,智算分布式協同技術應運而生。

智算分布式協同技術可以將分布式部署的智算節(jié)點進行高效的互聯,充分發(fā)揮算力資源的最大效能。然而,如何將這些分布式的智算節(jié)點高效地連接起來,是業(yè)界亟需研究的關鍵問題。OTN 作為一種大帶寬、低時延、高可靠的傳輸技術,具有構建跨集群分布式訓練的潛在優(yōu)勢。

在本次技術試驗中,中國移動研究院基于 800G OTN 互聯的兩個智算集群上運行了 700 億級參數的大型基礎語言模型。在 64 張 GPU 卡、4 個 PP 域分別在相距 104km 的兩個節(jié)點部署場景下,實現了等同單節(jié)點訓練效率 98%以上的高效協同訓練。這一成果首次驗證了 OTN 承載基于 PP 的百公里跨集群訓練的可行性,為分布式智算技術的演進提供了新的技術路線和試驗數據。

此外,中國移動研究院還創(chuàng)新提出了面向智算分布式協同的 OTN 無損倒換技術方案,通過芯片級算法實現了傳輸鏈路斷纖、誤碼時訓練效率的無損和無感知。這一技術方案的提出,進一步提高了智算分布式協同技術的可靠性和穩(wěn)定性。

自 2023 年起,中國移動研究院聯合國內合作伙伴,開展跨集群分布式訓練互聯技術攻關,創(chuàng)新提出基于 OTN 的智算分布式協同架構,并首次完成了 2-100 公里不同距離多場景下 OTN 承載分布式智算技術試驗。這些成果在光通信頂會 ECOC 上發(fā)表,引起了業(yè)界的廣泛關注。

未來,中國移動將圍繞智算分布式協同深入推進關鍵技術攻關、原型研發(fā)與試驗驗證,探索分布式智算中心新模式。相信在中國移動的努力下,智算分布式協同技術將不斷發(fā)展完善,為推動人工智能產業(yè)的發(fā)展做出更大的貢獻。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網白皮書
  • 4、回復“LTBPS”免費領取《《中國聯通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5GNTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網白皮書
  • 8、回復“5GX3”免費領取《R1623501-g605G的系統架構1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息