超算芯片霸主之爭,終于有了新變數

相關專題: 芯片 人工智能

2020年4月,以近70億美元被英偉達最終收購的以色列頂級數據中心網絡技術公司Mellanox,在長達半年多的“沉默”后,在11月迎來了兩件足以引起業(yè)內轟動的大事。

首先,陪Mellanox走了21年,并一手促成這筆交易的創(chuàng)始人兼首席執(zhí)行官Eyal Waldman宣布離職,并留下了一句頗為瀟灑的話:

“在達成這筆交易時,我就知道我要離開了。你知道我用幾十年創(chuàng)建一家公司并做出所有決策,不是用來做第二名的!

其次,就在今天,Mellanox作為英偉達GPU家族的一部分,被英偉達融入了新的網絡連接架構產品——NVIDIA Mellanox 400G InfiniBand。

此后,它將以“GPU伴侶”的身份,率先打入數據中心市場的最精銳部隊——超級計算機市場。

NVIDIA Mellanox 400G InfiniBand產品的架構組成。簡單來說,就是一個用以連接其他服務器與英偉達產品的組件

英偉達在今天的全球超級計算大會上,再次刷新了自己最強大GPU產品線——企業(yè)級加速器A100的 性能紀錄。

新一代的A100 GPU將高帶寬內存提升至80GB,比上一代擴大一倍。這意味著,每秒超過2TB的內存帶寬,會讓數據在內存與GPU之間流通得更加迅速,以便“承受”研究人員建立更大規(guī)模人工智能模型和數據集帶來的壓力。

“現(xiàn)在要在AI和高性能計算(HPC)的研究成果上繼續(xù)突破上限,科學家們必須要構建更大更復雜的模型,那么便需要比以往更大的內存容量與更高的帶寬! 英偉達應用深度學習研究副總裁Bryan Catanzaro指出。

英偉達在英國劍橋的超算中心部署了由若干塊A100 80GB組成的DGX系統(tǒng)

實際上,除了改變芯片產品的架構,把成百上千塊芯片用最高效的形式“連”起來,當然也能解決科學家們每秒/百億億次的超大計算需求,而收購的Mellanox的用意便在于此。

如果你見過位于無錫的中國超級計算機“太湖之光”,就會發(fā)現(xiàn)“這臺計算機”其實是一個由成百上千臺黑色機柜組成的計算機集群,可以填滿一間約1000平米的屋子。

它既可以被稱為“高性能計算機群”,也可以被看做是一個不小規(guī)模的數據中心。

當然,這些黑色機柜的性能,要比普通服務器強大太多,由4萬多塊不同種類的國產芯片組成,僅集成它們就是一項極為艱巨的任務,用時兩年,總投入超過了18億人民幣。

位于無錫超算中心的太湖之光

而NVIDIA Mellanox 400G InfiniBand的作用,便是將超級計算機中上萬塊CPU、GPU以及其他種類芯片“連接”在一起。在發(fā)揮性能最大化的同時,每塊芯片的數據傳輸效率也不能有太多損耗。

“之前CPU與GPU之間的互聯(lián),都是通過英偉達的NVlinks(一種總線及其通信協(xié)議),但這個東西互聯(lián)的效率沒有特別好,不能簡單擴展到上千塊芯片互聯(lián)的超算場景!眳⑴c研發(fā)過TPU,芯英科技聯(lián)合創(chuàng)始人楊龔軼凡告訴虎嗅,Mellanox擅長的便是此前英偉達最大的短板之一,

“一臺超級計算機,各品牌芯片之間的高效配合,極為重要。之前英偉達的NVlinks只能和IBM的CPU互聯(lián)。而收購Mellanox后,英偉達增強了用芯片構建超算系統(tǒng)的可擴展性,可以讓GPU與其他品牌和種類的芯片進行連接!

換句話說,英偉達找到了“讓自己產品輕松插進包括英特爾在內,所有服務器芯片接口”的方法。

超算市場,不可忽視的芯片掘金地

英偉達的這次全系列產品,無一例外面向的都是“燒錢魔窟”——超級計算機市場。

舉個例子,在2020年6月頒布的全球超級計算機Top500榜單上,排名第二的美國橡樹嶺國家實驗室超級計算機Summit,在每個節(jié)點配備了2個IBM的 Power9 CPU和 6個英偉達的Tesla V100。這樣的節(jié)點有4356個,總耗資2億美元。

而在2019年3月,美國能源部阿貢實驗室公開宣布,將耗資5億美元搭建新一代超級計算機 Aurora 。這臺將在2021年實現(xiàn)交付的超級計算機,并非追求一味追求計算速度,而是需要針對人工智能等新技術應用采用新的設計思路。

那么這筆巨額政府合同的主要受益者是誰?外界猜測是美國最大的CPU生產商英特爾與著名超算系統(tǒng)集成商Cray。

但不可忽視的是,隨著超算系統(tǒng)被用在人工智能研究領域的次數越來越多,額外裝載的加速芯片GPU,逐漸成為搭建超級計算機的必選品。

因此,英偉達也在全球許多超算項目中獲得了頗為豐厚的收益,包括美國技術最強大的國家實驗室——橡樹嶺實驗室、阿貢實驗室,都是英偉達最好性能產品的首批嘗鮮者。

美國迄今最強的超級計算機Summit(巔峰),在最新的Top500榜單中排名第2。

超級計算機之間的競爭,從來都被看作是國家之間技術實力的競爭。

盡管這是一個狹隘的衡量標準,但這些超級計算機群的確在很多軍事與科學任務中發(fā)揮著極為重要的作用,譬如武器設計與密碼破譯,再譬如模擬氣候變化,研究與診斷新冠病毒。

很多前所未有的材料與化學實驗,不太可能在云端執(zhí)行,因此部署高性能服務器便顯得格外重要。

“沒有人愿意燒很多錢去做一些幾十年沒成果的新技術研究,但是這些研究卻很有必要,那么這些新技術的運算就需要超級計算機來支持!币晃粯I(yè)內人士告訴虎嗅。

而這場競爭中,中國與美國理所當然是最為強勁的參賽選手,也是最愿意砸錢做超算系統(tǒng)的兩個科技大國。

2020年6月,盡管Top500的榜首之位,被日本神戶理研計算中心耗資10億美元的超算系統(tǒng)Fugaku奪走,但在這500個超級計算機中,中國擁有其中226個系統(tǒng),而美國則占據114個。

2020年6月最新榜單的前10名。在2016年~2017年蟬聯(lián)4次冠軍的中國超級計算機太湖之光位于第四名,天河二號第五名。

因此,如果按照每臺超級計算機單價上億美元來計算,這是一個令人垂涎的市場。而政府一次又一次創(chuàng)下記錄的巨額訂單,對商業(yè)公司產生著越來越大的吸引力;

此外,毫無疑問,由于超級計算機運行的都是難度最高的技術研發(fā)任務,它們的存在,是未來技術下沉到工業(yè)和消費級市場的源動力。

國家之間的超級計算機之戰(zhàn)從幾十年前就已打響。一開始,大多數超級計算機使用的微處理器都是從英特爾和AMD的PC芯片演變而來,然而,就是在過去5年里,數據量開始如爆炸般增長,新技術應用層出不窮,因此最強大的超級計算機已經開始加大專業(yè)芯片的使用力度,而英偉達,便是最大的受益者之一。

從圖中可以看出,2020年~2025年產生的數據量,是2010~2020年數據量的三倍。圖片來自英偉達。

不過有意思的是,日本Fugaku打敗中國和美國最強計算機的“源動力”,竟然是富士通的48核 A64FX SoC,這應該是榜單上第一個由ARM處理器提供動力的超算系統(tǒng)(雖然不想把英偉達和ARM的收購聯(lián)系起來,但這好歹是個開始)。

“未來超算市場,目前現(xiàn)在的共識是HPC+AI。也就是說,未來AI是超算的典型應用,而且量級很大。所以英偉達,想要作為未來霸主,保持在這個市場的領先地位。

當然,高性能計算市場,一切都沒那么容易。”


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料
  • 1、回復“YD5GAI”免費領取《中國移動:5G網絡AI應用典型場景技術解決方案白皮書
  • 2、回復“5G6G”免費領取《5G_6G毫米波測試技術白皮書-2022_03-21
  • 3、回復“YD6G”免費領取《中國移動:6G至簡無線接入網白皮書
  • 4、回復“LTBPS”免費領取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領取《中國電信5GNTN技術白皮書
  • 6、回復“TXSB”免費領取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領取《中國移動算力并網白皮書
  • 8、回復“5GX3”免費領取《R1623501-g605G的系統(tǒng)架構1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息