1、Why focus on the Network?
傳統(tǒng)網絡在技術和產品方面比較成熟。數(shù)據中心網絡在建設過程中,主要以傳統(tǒng)網絡為標準,通過對其修補來匹配數(shù)據中心網絡的要求。
斗轉星移,傳統(tǒng)網絡的劣勢隨著數(shù)據中心的發(fā)展在逐漸放大。AI、邊緣計算等新的業(yè)務形態(tài)對數(shù)據中心的網絡提出了新的新需求,南北向流量的增長、對時延和吞吐要求的不斷提高,使對數(shù)據中心網絡技術的研究逐漸成為一個比較緊迫的事情。各種國際標準組織紛紛成立相關的研究組來開展相關工作。網絡已經不再只是一個流量轉發(fā)的只需要追求穩(wěn)定的平臺,它逐漸成為一個重要的生產環(huán)節(jié),成為數(shù)據中心創(chuàng)新的一個重要方面。
2、What new scenes?
數(shù)據中心技術與承載業(yè)務的發(fā)展變化,是數(shù)據中心對網絡產生新需求的重要原因。
一方面,隨著計算虛擬化、存儲虛擬化的快速發(fā)展,計算、存儲資源進一步整合,極大地提高了計算、存儲執(zhí)行效率與資源利用率,而網絡具有數(shù)據傳輸?shù)闹匾δ,必須進行相應的調整,以迎合其它方面技術發(fā)展帶來的新需求。
另一方面,數(shù)據中心相關業(yè)務發(fā)展對網絡的性能提出更高的要求。相關業(yè)務場景包括大型在線數(shù)據密集(OLDI)服務,如用于在線購物,社交媒體和網絡搜索的自動推薦系統(tǒng);高性能深度學習網絡;NVMe高速存儲業(yè)務等應用場景。OLDI需要對高頻率、高速率的請求進行即時回應;深度學習在模型訓練過程中需要高性能的計算系統(tǒng),并行計算數(shù)據的傳輸通信時間極大影響著計算的性能;NVMe非常適合未來云數(shù)據中心高度并行的要求,而為保證NVMe的可靠性,需要對網絡在延時方面提出更加苛刻的要求。
這些業(yè)務場景的不斷涌現(xiàn)和進一步深度應用,也使得數(shù)據中心對于內部網絡的要求不斷提高。
3、what problems now?
目前數(shù)據中心在網絡方面存在諸多需要解決的問題。
以數(shù)據中心當前主流的Scale-out架構為例,其主要是2級、3級CLOS,少數(shù)可能達到5級、6級CLOS。而many-to-one流量模型和all-to-all流量模型,使得這種架構在未來數(shù)據中心新場景下存在丟包、時延、吞吐等多方面的挑戰(zhàn)。
圖1 many-to-one流量模型 圖2 all-to-all流量模型
如圖1所示為many-to-one流量模型,流量從server1到server5、從server7到server5、從server9到server5,整網無阻塞, 只有l(wèi)eaf2向server5的方向出端口方向buffer是瓶頸。如圖2所示為all-to-all流量模型,流量從server1到server5、從server9到server6,整網無阻塞, 只有spine1向leaf2的方向出端口方向buffer是瓶頸。上述網絡中的瓶頸問題,將會極大的影響數(shù)據中心網絡的性能,需要采用適當?shù)姆椒ń鉀Q瓶頸產生的影響。
4、How can lossless network do?
針對數(shù)據中心網絡面對的各種問題,相關機構進行了深入的研究,提出了相應的解決方案。無損網絡是數(shù)據中心網絡問題的解決方案之一,其主要通過擁塞控制、負載均衡、流量控制等方式,解決包括many-to-one和all-to-all流量模型在內的數(shù)據中心網絡存在的問題,其技術發(fā)展也主要是在這三個方面發(fā)展。
其中流量控制主要是管理兩個節(jié)點之間的數(shù)據傳輸速率,通過接收端的反饋,從而調節(jié)發(fā)送端發(fā)送數(shù)據的速率,使得接收端接收與發(fā)送端發(fā)送相匹配。
負載均衡是接收端和發(fā)送端存在多條路徑的情況下,將兩節(jié)點間的流量合理的在多條了路徑上進行分發(fā)。
網絡擁塞會引起數(shù)據包在網絡設備中排隊甚至導致隊列溢出而丟棄,是導致網絡高動態(tài)時延的主要原因,擁塞控制很好的解決了上述問題。
目前,無損網絡技術主要在以上三個方面進行技術創(chuàng)新,解決數(shù)據中心網絡面臨的問題。
5、what can we do?
無損網絡是開放數(shù)據中心標準推進委員會(ODCC)的重點研究內容之一,已經得到了中國信息通信研究院、中國電信、中國移動、百度、美團、華為、Mellanox等企事業(yè)單位的支持,相關的技術規(guī)范和白皮書也在制定當中,將于今年十月的開放數(shù)據中心峰會發(fā)布相關的成果。數(shù)據中心網絡已經不能很好的適應技術、業(yè)務場景對于數(shù)據中心網絡的要求,隨著技術和業(yè)務場景的發(fā)展,這種影響將逐步擴大。為了更好的服務數(shù)據中心業(yè)務新需求,需要通過新技術、新產品解決數(shù)據中心面臨的網絡問題,這樣不僅有利于數(shù)據中心的長遠發(fā)展,同時也有利于企業(yè)技術創(chuàng)新,產品換代。