當大模型參數(shù)量突破萬億級、智算集群規(guī)模向百萬卡邁進,智算中心作為數(shù)字經濟的核心基礎設施,正面臨前所未有的挑戰(zhàn)與機遇。如何以更低的功耗承載更高的帶寬,如何以更靈活的架構支撐動態(tài)的算力需求,如何以更可靠的聯(lián)接保障持續(xù)的訓練?答案,或許就藏在光互聯(lián)技術的革新中。
就在 4 月 17 日下午舉辦的“超大規(guī)模智算中心:1.6T 時代的全光互聯(lián)”上,華為光產品線專家劉曉妮系統(tǒng)闡述了智算中心光互聯(lián)的演進趨勢與華為創(chuàng)新成果。她指出,谷歌作為行業(yè)先行者,已在數(shù)據中心網絡(DCN)核心層和智算參數(shù)面規(guī);渴鹑饨徊妫∣CS),完成了 90%的替代,并推動 OCS 從“單點突破”走向“全局重構”。而華為推出的數(shù)據中心全光交叉(DC-OXC)解決方案,通過光電混合架構與動態(tài)拓撲調度能力,為超萬卡集群的彈性擴展與高效協(xié)同提供了全新范式。
從谷歌實踐,看光互聯(lián)核心價值
LightCounting 數(shù)據顯示,2024 年以太網光模塊市場規(guī)模突破 100 億美元,同比增長近 100%,未來五年仍將保持 15%~18%的復合增速。增長背后,是超大規(guī)模集群對高速互聯(lián)的極致追求:英偉達 Rubin 架構下,288 卡 GPU 集群需 5184 個 1.6T 光模塊,傳統(tǒng)電互聯(lián)在密度與功耗上漸漸變得難以為繼。
谷歌的探索為行業(yè)提供了重要參考,其 Jupiter 網絡通過 OCS 替代傳統(tǒng)電交換機核心層,實現(xiàn)了跨代際網絡的高效互通。劉曉妮援引谷歌公開數(shù)據指出,OCS 的引入使 DCN 核心層不再受電芯片迭代周期束縛,網絡拓撲可按流量親和性動態(tài)調整,效率提升 10 倍,停機時間減少 98%,同時降低 40%功耗與 30%設備投資。
劉曉妮強調,OCS 不僅是聯(lián)接工具,更是算力資源動態(tài)調度的核心樞紐。谷歌將 OCS 下沉至智算參數(shù)面,基于 3D-Torus 架構構建 TPU 集群。以 TPU v4 為例,64 個機柜通過 OCS 互聯(lián),形成 4096 卡的超大規(guī)模算力單元,故障隔離效率提升 50 倍,集群可用性從 8%躍升至 75%。谷歌 TPU v7 延續(xù)了這一架構,并在 6000 卡集群中完成 PaLM 大模型訓練,驗證了光互聯(lián)在超大規(guī)模 AI 訓練中的可行性。
華為 DC-OXC:破解智算中心三大困局
隨著智算集群規(guī)模的迅速膨脹,全球智算中心建設普遍面臨著“規(guī)模受限、可靠性衰減、效率瓶頸”三大挑戰(zhàn)。