隨著 AI 大模型訓練和推理需求的爆發(fā)式增長,智算中心網絡的高效性與穩(wěn)定性成為決定 AI 產業(yè)發(fā)展的核心要素。信而泰憑借自主研發(fā)的 CCL(集合通信庫)評估工具與 DarYu-X 系列測試儀,為智算中心 RoCE 網絡提供精準評估方案,助力企業(yè)突破算力瓶頸,釋放 AI 澎湃動力!
什么是智算中心?智算中心(AIDC,Artificial Intelligence Data Center)是專門為人工智能應用提供算力支持的高性能數(shù)據中心,是人工智能技術與云計算、大數(shù)據、物聯(lián)網等現(xiàn)代信息技術深度融合的產物。它基于最新的人工智能理論,采用前沿的計算架構,為 AI 模型的訓練、推理和應用提供強大的算力服務、數(shù)據服務和算法服務。
智算中心的核心功能包括算力服務、數(shù)據服務、算法服務、資源調度等。算力服務提供高性能的計算能力,支持 GPU、FPGA、ASIC 等異構計算芯片,滿足 AI 模型訓練和推理的高并發(fā)需求。數(shù)據服務提供數(shù)據治理、存儲和優(yōu)化服務,支持大規(guī)模數(shù)據的高效處理。算法服務提供預訓練大模型、行業(yè)算法庫等,支持機器學習、深度學習等 AI 應用。資源調度通過智能調度平臺,實現(xiàn)算力資源的靈活分配和高效利用。
為何必須評估智算中心網絡?對智算中心的 RoCE 網絡進行評估測試,是為了確保其能夠高效、穩(wěn)定地支持大規(guī)模 AI 訓練任務。具體原因包括驗證性能、優(yōu)化可靠性、成本效益、支持分布式訓練和指導運維等。
智算中心網絡評估工具-CCL 使用集合通信流量來評估智算中心網絡的 RoCE(RDMA over Converged Ethernet)性能,主要有以下幾個原因:集合通信是智算中心的關鍵特征、集合通信對網絡性能要求極高、RoCE 性能直接影響智算中心效率、集合通信流量能夠全面評估 RoCE 性能、RoCE 在智算中心的廣泛應用。
如何使用儀表 CCL 評估智算網絡?使用信而泰 Renix 軟件平臺提供的 CCL Traffic Emulation 向導,測試配置實現(xiàn)通過向導配置,生成復雜的訓練流量。針對不同 AI 訓練數(shù)據包,評估在非擁塞網絡、擁塞網絡各項指標。對比網絡正常和網絡故障情況下各項組網指標,比如任務時間、訓練時間、算法帶寬、總線帶寬、收發(fā)報文數(shù)量、時延、抖動、亂序等關鍵數(shù)據。
高密度智算網絡測試解決方案。信而泰推出的 X2-100G-12QSFP28、X5-400G 高密度智算非擁塞網絡(ROCEv2)測試儀是一款專為高端路由器、交換機以及數(shù)據中心交換機設計的高密度測試平臺。該測試平臺充分滿足運營商、網絡設備制造商和企業(yè)用戶在高速以太網和智能計算網絡測試業(yè)務中對增長和未來發(fā)展的需求。其高密度設計使得它在有限的空間內提供強大的測試能力,是應對未來網絡挑戰(zhàn)