北京2024年4月26日 /美通社/ -- 近日,在IPF2024上,浪潮信息正式發(fā)布了專(zhuān)門(mén)面向生成式AI的超級(jí)AI以太網(wǎng)交換機(jī)——X400,這是國(guó)內(nèi)首款基于NVIDIA Spectrum-X平臺(tái)打造的以太網(wǎng)交換機(jī),吞吐量達(dá)業(yè)界最高的51.2T,較上一代產(chǎn)品提升了4倍,在4U空間可提供128個(gè)400Gb/s 的高速網(wǎng)絡(luò)端口,在其高吞吐量、低延遲、高可靠性等優(yōu)勢(shì)的加持下,比傳統(tǒng)的RoCE網(wǎng)絡(luò)性能提升了1.6倍,為大規(guī)模算力提供領(lǐng)先的AI網(wǎng)絡(luò)性能。
超級(jí)AI以太網(wǎng)交換機(jī)X400是雙方聯(lián)合創(chuàng)新的結(jié)晶,專(zhuān)門(mén)面向生成式AI打造,X400在標(biāo)準(zhǔn)以太網(wǎng)絡(luò)上實(shí)現(xiàn)了與專(zhuān)用網(wǎng)絡(luò)架構(gòu)相當(dāng)?shù)木W(wǎng)絡(luò)性能,確?蛻(hù)以更理想的方式建設(shè)網(wǎng)絡(luò)基礎(chǔ)設(shè)施,這將極大提升AI模型迭代與業(yè)務(wù)創(chuàng)新的速度。
目前,我們面臨的用于人工智能基礎(chǔ)模型的計(jì)算能力不足、訓(xùn)練成本高等問(wèn)題,原因之一就是傳統(tǒng)網(wǎng)絡(luò)的效率低下,導(dǎo)致GPU多節(jié)點(diǎn)間通信時(shí)的效率偏低。在訓(xùn)練基礎(chǔ)模型中,網(wǎng)絡(luò)通信往往占到20%到40%的時(shí)間,在進(jìn)行梯度和參數(shù)同步時(shí),浪費(fèi)了寶貴的GPU資源。
面向這種生成式AI場(chǎng)景的網(wǎng)絡(luò)互連瓶頸,會(huì)上發(fā)布首款專(zhuān)門(mén)面向AI的以太網(wǎng)交換機(jī)X400,采用了NVIDIA的Spectrum-4 交換芯片,這是NVIDIA的第五代以太網(wǎng)交換芯片,助力X400達(dá)到了業(yè)界領(lǐng)先的數(shù)據(jù)包處理速率、全線速性能和超低直通(pass-through)延遲,通過(guò)動(dòng)態(tài)路由(Adaptive Routing)和增強(qiáng)擁塞控制技術(shù),實(shí)現(xiàn)了95%以上的以太網(wǎng)網(wǎng)絡(luò)利用率,處于業(yè)界領(lǐng)先,依托完全共享的數(shù)據(jù)包緩沖區(qū)架構(gòu),動(dòng)態(tài)地為所有端口提供公平且無(wú)瓶頸的數(shù)據(jù)路徑,成為構(gòu)建面向AI場(chǎng)景的高性能RoCE網(wǎng)絡(luò)的理想產(chǎn)品,滿(mǎn)足生成式AI、大型語(yǔ)言模型、推薦系統(tǒng)、視頻分析等帶寬密集型應(yīng)用的超高網(wǎng)絡(luò)性能需求。
超級(jí)AI以太網(wǎng)交換機(jī)X400是一款采用開(kāi)放架構(gòu)設(shè)計(jì)的高性能AI交換機(jī),實(shí)現(xiàn)了軟硬件的分層解耦,基于百度、阿里、騰訊等云計(jì)算廠商聯(lián)合制定的S3IP開(kāi)放標(biāo)準(zhǔn),支持開(kāi)源SONiC及第三方網(wǎng)絡(luò)OS,實(shí)現(xiàn)了業(yè)務(wù)應(yīng)用和網(wǎng)絡(luò)協(xié)議的靈活拓展,滿(mǎn)足了不同客戶(hù)對(duì)交換機(jī)的定制化需求。同時(shí),為保證用戶(hù)AIGC網(wǎng)絡(luò)的穩(wěn)定性,X400搭載了獨(dú)創(chuàng)的IGE智能防護(hù)引擎,提供關(guān)鍵部件偵測(cè)、軟件關(guān)鍵進(jìn)程監(jiān)控、內(nèi)存糾錯(cuò)、雙Flash冗余切換等多種故障預(yù)防機(jī)制,實(shí)現(xiàn)了對(duì)設(shè)備的全面可靠性保護(hù)。此外,X400還搭載集監(jiān)控和配置于一體的O&M智能運(yùn)維平臺(tái),支持Spectrum-4 的WJH(what just happened)功能,通過(guò)底層芯片和軟件工具收集數(shù)據(jù)包粒度的可見(jiàn)性數(shù)據(jù)和事件觸發(fā)信息,實(shí)時(shí)掌握網(wǎng)絡(luò)與設(shè)備的健康狀況,結(jié)合創(chuàng)新的故障自愈技術(shù),極大地提升了網(wǎng)絡(luò)設(shè)備的高可用性,助力客戶(hù)構(gòu)建可視、可控、可靠的AI大模型訓(xùn)練網(wǎng)絡(luò)。
方案層面,超級(jí)AI以太網(wǎng)交換機(jī) X400基于開(kāi)源SONiC研發(fā)的UXOS網(wǎng)絡(luò)操作系統(tǒng)、NVIDIA BlueField-3 SuperNICs等,為用戶(hù)構(gòu)建面向生成式AI場(chǎng)景的端到端高性能網(wǎng)絡(luò)解決方案 AI Fabric,組網(wǎng)規(guī)?蓮椥詳U(kuò)展至51.2萬(wàn)個(gè)GPU的超大規(guī)模AI系統(tǒng),憑借AR動(dòng)態(tài)路由、端到端擁塞控制、亞毫秒級(jí)故障自愈等技術(shù),性能提升至傳統(tǒng)RoCE網(wǎng)絡(luò)性能1.6倍,達(dá)到以太網(wǎng)RoCE的性能極限,實(shí)現(xiàn)了AI網(wǎng)絡(luò)的超高吞吐量、高可擴(kuò)展性和超高可靠性。測(cè)試數(shù)據(jù)表明,該方案能顯著提升大模型訓(xùn)練性能,相比傳統(tǒng)RoCE網(wǎng)絡(luò)方案,這種AI網(wǎng)絡(luò)的帶寬利用率超過(guò)95%,通信時(shí)延降低30%,NVIDIA Megatron-LM大模型訓(xùn)練速度最高可以提升70%,大幅縮短訓(xùn)練時(shí)長(zhǎng)并降低訓(xùn)練成本。