C114訊 3月24日消息(趙婷婷)人工智能正處于快速發(fā)展階段,其應用深入到各個行業(yè)和領域,將逐步改變著我們的生活和工作方式。智能時代,通信及網(wǎng)絡重要性在不斷提升,產(chǎn)品迭代速度明顯加速,對數(shù)據(jù)、算力、網(wǎng)絡持續(xù)演進提出了新的要求。
日前,在思博倫舉辦的“創(chuàng)新驅動智能未來”的Spirent Day 2024峰會上,中國移動通信有限公司研究院項目經(jīng)理秦鳳偉在主題演講中表示,AI大模型以算力集群分布式訓練為基礎,帶來大量節(jié)點間通信消耗,組網(wǎng)規(guī)模、網(wǎng)絡性能和可靠性決定集群有效算力,網(wǎng)絡成為AI算力“瓶頸”,以網(wǎng)強算成為提升大模型訓練效率的關鍵。
智算中心與通算中心流量模型與網(wǎng)絡存在差異性
秦鳳偉指出,智算中心網(wǎng)絡用于連接CPU、GPU、內(nèi)存等池化異構算力資源,貫穿數(shù)據(jù)計算、存儲全流程,網(wǎng)絡性能增強對提升智算中心整體算力水平具有關鍵意義。相較于通用云計算網(wǎng)絡,智算中心網(wǎng)絡對AI參數(shù)面網(wǎng)絡提出更為嚴苛的要求。
具體而言,在流量模型差異性方面,通用算力以CPU芯片為主,業(yè)務種類多流量小,業(yè)務間相互獨立;智能算力以GPU、AI芯片等人工智能芯片為主通信關系固定,流數(shù)量少流量大,分布式訓練帶來大量節(jié)點的同步突發(fā),木桶效應明顯。
在網(wǎng)絡差異性方面,目前業(yè)界主流通算中心與智算中心雖然均采用spine-leaf架構,但兩者端口速率、組網(wǎng)方式、網(wǎng)絡協(xié)議均存在差異性。
例如,通算中心組網(wǎng)方案服務器端口10GE/25GE并存,匯聚層從40GE向100GE演進;而智算中心組網(wǎng)方案服務器端口200GE/400GE,匯聚層更是達到了400GE/800GE。
打造新型智算中心網(wǎng)絡技術體系CSE
面對AI大模型訓練對網(wǎng)絡提出的全新挑戰(zhàn),傳統(tǒng)的數(shù)據(jù)中心以太網(wǎng)已經(jīng)難以維系,業(yè)界正在致力于對傳統(tǒng)以太網(wǎng)進行革新。
秦鳳偉舉例表示,現(xiàn)有以太網(wǎng)協(xié)議基于流的負載分擔及擁塞控制機制,在AI模型訓練場景存在天然缺陷,導致網(wǎng)絡有效帶寬和時延受限。InfiniBand和ROCE存在各自問題,因此,構建基于新型以太網(wǎng)開放、標準的生態(tài),成為智算中心網(wǎng)絡技術演進方向。
她介紹,GSE(全調(diào)度以太網(wǎng))創(chuàng)新以太網(wǎng)轉發(fā)機制,基于三大核心機制轉變,實現(xiàn)高精度負載均衡、網(wǎng)絡層原生無損及低延遲。從而由“流”分發(fā)轉向“報文”分發(fā),從盲發(fā)+被動控制轉向感知+主動控制,從“局部”決策轉向“全局”調(diào)度。
GSE技術體系能最大限度兼容以太網(wǎng)生態(tài),從物理層、鏈路層、網(wǎng)絡層、傳輸層“四層”,以及管理和運維體系“一體”等層級優(yōu)化和增強。創(chuàng)新基于報文容器(PKTC)的轉發(fā)及調(diào)度機制,構建無阻塞、高帶寬、低時延的新型智算中心網(wǎng)絡,形成標準開放的技術體系,助力AI產(chǎn)業(yè)發(fā)展。
在部署方面,GSE協(xié)議可根據(jù)網(wǎng)絡設備和網(wǎng)卡能力適應多種組網(wǎng)場景。尤其在部署國產(chǎn)芯片時,GSE由于采用逐包分發(fā)技術降低了對leaf上行帶寬的需求,使得同等芯片容量下組網(wǎng)規(guī)模更大,負載均衡能力更強,更適配國產(chǎn)芯片大規(guī)模組網(wǎng)需求。
秦鳳偉表示,中國移動已攜手中國信通院,并聯(lián)合國內(nèi)外三十余家主流互聯(lián)網(wǎng),設備商、芯片商、高校院所聯(lián)合發(fā)起GSE推進計劃,推動智算中心網(wǎng)絡技術創(chuàng)新、標準完善和產(chǎn)業(yè)應用,打造高速無損、開放兼容的新型智算中心網(wǎng)絡技術體系。