運營商重磅首發(fā)!大規(guī)模專家并行推理集群實現(xiàn)3倍吞吐

近日,移動云成功部署基于國產(chǎn)算力的“大規(guī)模專家并行”推理集群,在移動云 MaaS 平臺,COCA 推理系統(tǒng)上線,實現(xiàn) DeepSeek MoE 大模型跨節(jié)點高效集群推理。該方案突破性實現(xiàn)單卡吞吐提升 3 倍,Decode 時延降低 50%,推動人工智能技術革新。

當下,人工智能產(chǎn)業(yè)正處于迅猛發(fā)展的黃金時期。大模型 MoE 結構不斷迭代,從少量大專家向大量小專家演進,這種轉變猶如從“全能型教授”轉向“?漆t(yī)生團隊”,讓每個專家更專注于特定領域,從而顯著提升模型的整體效果。然而,要讓大模型真正普及開來,性能是繞不開的關鍵因素。在這樣的背景下,大規(guī)模專家并行技術憑借其更大的吞吐能力和更低的時延,成為推理系統(tǒng)的重要發(fā)展方向。

強強聯(lián)合,釋放算力極致性能

移動云與華為強強聯(lián)合,在軟件技術和并行策略等多個維度展開深度創(chuàng)新,充分釋放 N 騰 AI 算力底座的極致性能。雙方聚焦跨節(jié)點專家并行部署難題,將 DeepSeek V3/R1 大模型的 288 個專家巧妙分布到不同的卡上,實現(xiàn)權重占用減少 75% 。同時,通過優(yōu)化 AlltoAll 通信,效率提升了 35%。在此基礎上,疊加專家熱點均衡算法,成功保障實例內負載均衡。

平臺升級,推理服務高效穩(wěn)定

移動云 MaaS 平臺基于大規(guī)模專家并行方案構建大規(guī)模、高可靠、高性能的推理引擎能力體系,通過優(yōu)化 P&D 算力分配提升資源利用率,采用拓撲感知調度提升跨節(jié)點通信效率,并依托多級容災機制實現(xiàn)故障快速隔離與恢復,實現(xiàn)移動云 MaaS 服務在 AI 推理性能倍增的同時保障業(yè)務連續(xù)性,最終以更優(yōu)成本效益為客戶提供高效穩(wěn)定的推理服務。

推理優(yōu)化,COCA 推理吞吐極致發(fā)揮

這一大規(guī)模專家并行推理集群中,COCA 推理系統(tǒng)為大云磐石超節(jié)點和智算裸金屬集群提供了強大的賦能支持。移動云借助定制化的優(yōu)化算法和智能調度策略,將 N 騰硬件的并行計算能力發(fā)揮到極致,大幅提升整體推理吞吐。更值得一提的是,在多個關鍵技術層面,移動云深入挖掘國產(chǎn)硬件的潛力,為國產(chǎn)算力的崛起貢獻了堅實力量。

此次移動云大規(guī)模專家并行推理集群的成功部署,對于推動我國在 AI 底層架構和國產(chǎn)化技術協(xié)同領域的自主創(chuàng)新,具有重要意義。未來,移動云將為行業(yè)數(shù)字化轉型提供關鍵技術支撐,助力千行百業(yè)在智能化浪潮中加速前行。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料

本周熱點本月熱點

 

  最熱通信招聘

  最新招聘信息