近日,在2024中國算力大會(huì)“算力網(wǎng)絡(luò)共鏈行動(dòng)暨創(chuàng)新發(fā)展”分論壇上,中國移動(dòng)攜手50余家產(chǎn)業(yè)合作伙伴共同發(fā)布“智算開放互聯(lián)系列重磅成果”。中國移動(dòng)通信集團(tuán)有限公司副總經(jīng)理李慧鏑、河南省人民政府副秘書長魏曉偉、中國移動(dòng)研究院黨委委員王大越及多位業(yè)界領(lǐng)袖出席了此次發(fā)布儀式。
此次成果發(fā)布旨在促進(jìn)智算中心之間的網(wǎng)絡(luò)互聯(lián)和卡間互連的技術(shù)創(chuàng)新,完善相關(guān)標(biāo)準(zhǔn),推動(dòng)產(chǎn)業(yè)發(fā)展和應(yīng)用實(shí)踐。目標(biāo)是構(gòu)建一個(gè)高速、無損、安全、可靠的新型智算互聯(lián)技術(shù)體系,以滿足人工智能時(shí)代日益增長的算力需求,并全面提升算力的賦能能力。
隨著ChatGPT等基礎(chǔ)通用大模型的爆發(fā),智能算力需求呈現(xiàn)爆炸式增長態(tài)勢(shì),全球智算中心建設(shè)高速發(fā)展,集群規(guī)模邁入萬卡級(jí)別,超節(jié)點(diǎn)設(shè)備受到產(chǎn)業(yè)界關(guān)注。超大模型訓(xùn)練依賴集群內(nèi)GPU之間頻繁的數(shù)據(jù)交互,通信開銷導(dǎo)致集群的有效算力無法隨GPU數(shù)量線性增長,互聯(lián)性能成為制約集群規(guī)模擴(kuò)展和性能提升的瓶頸。同時(shí),智算互聯(lián)體系依賴GPU芯片、交換芯片、網(wǎng)卡芯片及整機(jī)設(shè)備等上下游企業(yè)協(xié)同創(chuàng)新,技術(shù)體系龐雜,難度大。
為了應(yīng)對(duì)卡間互聯(lián)極致的帶寬和時(shí)延要求,填補(bǔ)機(jī)內(nèi)交換產(chǎn)業(yè)空白,中國移動(dòng)在今年6月聯(lián)合北京市政府及國內(nèi)智算生態(tài)企業(yè)和科研機(jī)構(gòu),建立了“OISA協(xié)同創(chuàng)新平臺(tái)”,原創(chuàng)提出GPU卡間開放互聯(lián)協(xié)議OISA,推動(dòng)互聯(lián)協(xié)議、交換芯片等核心技術(shù)攻關(guān)。
本次算力大會(huì),中國移動(dòng)聯(lián)合產(chǎn)業(yè)合作伙伴共同發(fā)布OISA Gen1.1協(xié)議。OISA旨在打造一個(gè)高效、智能、靈活且開放的GPU卡間互聯(lián)體系,致力于支持大模型訓(xùn)練、推理、高性能計(jì)算等數(shù)據(jù)密集型的AI應(yīng)用。為了實(shí)現(xiàn)這一目標(biāo),OISA采用了全向連接設(shè)計(jì),確保大規(guī)模GPU之間對(duì)等通信;引入智能感知設(shè)計(jì),通過定義流量感知標(biāo)簽,并結(jié)合流控和重傳機(jī)制,優(yōu)化數(shù)據(jù)傳輸效率;在協(xié)議層面,OISA采用了統(tǒng)一報(bào)文格式、多語義融合、多層次流控和重傳以及集合通信加速等四大關(guān)鍵技術(shù),實(shí)現(xiàn)高速、低時(shí)延、無損和高可靠的GPU通信。
OISA將秉承開放性原則,邀請(qǐng)產(chǎn)業(yè)伙伴加入OISA生態(tài),深度參與OISA的協(xié)議制定、更新與研發(fā),從技術(shù)攻關(guān)、標(biāo)準(zhǔn)體系、創(chuàng)新試驗(yàn)、產(chǎn)業(yè)生態(tài)等方面加快推動(dòng)相關(guān)技術(shù)和產(chǎn)品成熟,為國內(nèi)AI芯片向超節(jié)點(diǎn)升級(jí)提供強(qiáng)有力的技術(shù)支撐,為中國在全球AI領(lǐng)域中提供新的動(dòng)力。