隨著互聯(lián)網(wǎng)業(yè)務(wù)的高速發(fā)展,對構(gòu)建互聯(lián)網(wǎng)基礎(chǔ)架構(gòu)的網(wǎng)絡(luò)設(shè)備提出了更高要求,例如容量、性能、擴(kuò)展性以及QoS等諸多關(guān)鍵特性,而這往往是由其所采用的硬件架構(gòu)決定的。以框式核心交換機(jī)為例,先后出現(xiàn)了多種硬件架構(gòu),而現(xiàn)在最為常用的有三種:Full-Mesh交換架構(gòu)、Crossbar矩陣交換架構(gòu)和基于Cell的CLOS交換架構(gòu)。本文將通過對這三種硬件架構(gòu)、報(bào)文轉(zhuǎn)發(fā)流程等原理的分析,全面剖析三種架構(gòu)的優(yōu)劣勢。
名詞解釋
Hash
散列函數(shù)
DLB
Dynamic Load Balancing,動態(tài)負(fù)載均衡
Arbiter
仲裁器
LC
Line-Card,業(yè)務(wù)線卡
Ingress
入口
Egress
出口
CrossPoint
交叉點(diǎn)
CICQ
Combined Input and Crosspoint Buffered Queuing,聯(lián)合輸入交叉節(jié)點(diǎn)排隊(duì)
VOQ
Virtual Output Queueing,虛擬輸出隊(duì)列
RR
Round Robin,輪詢算法
Cell
信元
FE
交換網(wǎng)板
PCB
Printed Circuit Board,印制電路板
Full-Mesh
架構(gòu)說明
圖1:Full-Mesh架構(gòu)圖
如圖1所示,所有業(yè)務(wù)線卡通過背板走線連接到其它線卡,因?yàn)镕ull-Mesh不需要外部的交換芯片,而是任意兩個(gè)節(jié)點(diǎn)間都有直接連接,故得名全連接。
由于各線卡需要Full-Mesh互聯(lián),一個(gè)節(jié)點(diǎn)數(shù)為N的Full-Mesh,連接總數(shù)為【N×(N-1)】÷2,所以隨著節(jié)點(diǎn)數(shù)量增加連接總數(shù)也急劇上升,因而可擴(kuò)展性較差,僅適用于槽位數(shù)量較少的核心設(shè)備。
報(bào)文轉(zhuǎn)發(fā)流程
1.報(bào)文從線卡進(jìn)入,跨卡報(bào)文送到與目的線卡連接的背板通路;
2.報(bào)文到達(dá)目的線卡。
Crossbar
架構(gòu)說明
圖2:Crossbar架構(gòu)圖
如圖2所示,業(yè)務(wù)線卡通過背板走線連接到Crossbar芯片上,Crossbar芯片集成在主控引擎上。
圖3:Crossbar芯片架構(gòu)
Crossbar芯片架構(gòu)如圖3所示,每一條輸入鏈路和輸出鏈路都有一個(gè)CrossPoint,在CrossPoint處有一個(gè)半導(dǎo)體開關(guān)連接輸入線路和輸出線路,當(dāng)來自某個(gè)端口的輸入線路需要交換到另一個(gè)端口的輸出點(diǎn)時(shí),在CPU或交換矩陣的控制下,將交叉點(diǎn)的開關(guān)連接,數(shù)據(jù)就被發(fā)到另一個(gè)接口。
簡單地說,Crossbar 架構(gòu)是一種兩級架構(gòu),它是一個(gè)開關(guān)矩陣,每一個(gè)CrossPoint都是一個(gè)開關(guān),交換機(jī)通過控制開關(guān)來完成輸入到特定輸出的轉(zhuǎn)發(fā)。如果交換具有N個(gè)輸入和N個(gè)輸出,那么該Crossbar Switch就是一個(gè)帶有N*(N-1)≈N?個(gè)CrossPoint點(diǎn)的矩陣,可見,隨著端口數(shù)量的增加,交叉點(diǎn)開關(guān)的數(shù)量呈幾何級數(shù)增長。對于Crossbar芯片的電路集成水平、矩陣控制開關(guān)的制造難度、制造成本都會呈幾何級數(shù)增長。所以,采用一塊Crossbar交換背板的交換機(jī),所能連接的端口數(shù)量也是有限的。
報(bào)文轉(zhuǎn)發(fā)流程
無緩存Crossbar
每個(gè)交叉點(diǎn)沒有緩存,業(yè)務(wù)調(diào)度采用集中調(diào)度的方式,對輸入輸出進(jìn)行統(tǒng)一調(diào)度,報(bào)文轉(zhuǎn)發(fā)流程如下:
1.報(bào)文從線卡進(jìn)入,線卡先向Arbiter請求發(fā)送;
2.Arbiter根據(jù)輸出端口隊(duì)列擁塞情況,決定是否允許線卡發(fā)送報(bào)文到輸出端口;
3.報(bào)文通過Crossbar轉(zhuǎn)發(fā)到目的線卡輸出端口。
由于是集中調(diào)度,所以仲裁器的調(diào)度算法復(fù)雜度很高,擴(kuò)展性較差,系統(tǒng)容量大時(shí)仲裁器容易形成瓶頸,難以做到精確調(diào)度。
緩存式Crossbar
最早的緩存式Crossbar只有交叉節(jié)點(diǎn)帶緩存,而輸入端是無緩存的,被稱為”bus matrix”,后來,CICQ的概念被引入,即在輸入端用大的Input Buffer,在中間節(jié)點(diǎn)用小的CrossPoint Buffer。
這種結(jié)構(gòu)采用分布式調(diào)度的方式進(jìn)行業(yè)務(wù)調(diào)度,即輸入和輸出端都有各自的調(diào)度器,報(bào)文轉(zhuǎn)發(fā)流程如下:
1.報(bào)文從線卡進(jìn)入,輸入端口通過特定的調(diào)度算法(如RR算法)獨(dú)立地選擇有效的VOQ;
2.將VOQ隊(duì)列頭部分組發(fā)送到相應(yīng)的交叉點(diǎn)緩存;
3.輸出端口通過特定的算法在非空的交叉點(diǎn)緩存中選擇進(jìn)行服務(wù)。
由于輸入和輸出的調(diào)度策略相互獨(dú)立,所以很難保證交換系統(tǒng)在每個(gè)時(shí)隙整體上達(dá)到最佳匹配狀態(tài),并且調(diào)度算法復(fù)雜度和交換系統(tǒng)規(guī)模有關(guān),限制了其擴(kuò)展性。
CLOS
架構(gòu)說明
圖4:CLOS架構(gòu)圖
如圖4所示,每塊業(yè)務(wù)線卡和所有交換網(wǎng)板相連,交換芯片集成在交換網(wǎng)板上,實(shí)現(xiàn)了交換網(wǎng)板和主控引擎硬件分離。CLOS架構(gòu)是一種多級架構(gòu),每個(gè)入口級開關(guān)和每個(gè)中間級開關(guān)之間只有一個(gè)連接,并且,每個(gè)中間級開關(guān)正好連接到每個(gè)出口級開關(guān),這種架構(gòu)的優(yōu)點(diǎn)是可以通過多個(gè)小型Crossbar 開關(guān)來實(shí)現(xiàn)大量輸入和輸出端口之間的連接,CrossPoint數(shù)量級別低于Crossbar架構(gòu)的N的2次方,降低了芯片實(shí)現(xiàn)難度。
報(bào)文轉(zhuǎn)發(fā)流程
基于Cell的動態(tài)負(fù)載
1.入方向線卡將數(shù)據(jù)包切分為N個(gè)cell,其中:N=下一跳可用線路數(shù)量;
2.交換網(wǎng)板采用動態(tài)路由方式,即根據(jù)下一級各鏈路的實(shí)際可用交換能力,動態(tài)選路和負(fù)載均衡,通過多條路徑將分片發(fā)送到出方向線卡;
3.出方向線卡重組報(bào)文。
動態(tài)負(fù)載關(guān)鍵點(diǎn)在于能負(fù)載分擔(dān)地均衡利用所有可達(dá)路徑,由此實(shí)現(xiàn)了無阻塞交換。
CLOS架構(gòu)交換機(jī)的分類
非正交背板設(shè)計(jì)
圖5:非正交背板
如圖5所示,業(yè)務(wù)線卡與交換網(wǎng)板互相平行,板卡之間通過背板走線連接。
背板走線會帶來信號干擾,背板設(shè)計(jì)也限制了帶寬的升級,同時(shí),背板上PCB的走線要求很高,從背板開孔就成了奢望,這直接導(dǎo)致純前后的直通風(fēng)道設(shè)計(jì)瓶頸一直無法突破。
正交背板設(shè)計(jì)
圖6:正交背板
如圖6所示,交換機(jī)線卡與交換網(wǎng)板分別與背板對接。
同非正交背板設(shè)計(jì)一樣,背板帶寬限制了帶寬的升級,同時(shí)也增加了散熱的難度。
正交零背板設(shè)計(jì)
圖7:正交零背板
如圖7所示,業(yè)務(wù)線卡與交換網(wǎng)板互相垂直,背板走線為零,甚至無中板。
正交設(shè)計(jì)能減少背板走線帶來的高速信號衰減,提高了硬件的可靠性,無背板設(shè)計(jì)能夠解除背板對容量提升的限制,當(dāng)需要更大帶寬的時(shí)候,只需要更換相應(yīng)板卡即可,大大縮短業(yè)務(wù)升級周期,并且因?yàn)闆]有了背板的限制,交換機(jī)直通風(fēng)道散熱問題迎刃而解,完美匹配數(shù)據(jù)中心機(jī)房空氣流的走向,形成了貫穿前后板卡的高速、通暢的氣流。
總結(jié)
下表將對以上三種架構(gòu)做出總結(jié):
Full-Mesh
Crossbar
CLOS
分類
-
無緩存
有緩存
非正交背板
正交背板
正交零背板
硬件架構(gòu)
· 無交換網(wǎng)板
· 線卡之間通過背板走線相連
· 單平面交換
· 集中調(diào)度
· 交叉點(diǎn)無緩存
· 單平面交換
· 分布式調(diào)度
· 交叉點(diǎn)有緩存
· 多平面交換
· 線卡和交換網(wǎng)板平行
· 背板長走線
· 多平面交換
· 線卡和交換網(wǎng)板正交
· 背板短走線
· 多平面交換
· 線卡和交換網(wǎng)板正交
· 無背板無走線
性能特點(diǎn)
· 受限于背板帶寬和連接總數(shù),擴(kuò)展性差
· 背板帶寬是瓶頸
· 隨端口數(shù)增加CrossPoint數(shù)量呈幾何增長
· 系統(tǒng)容量大時(shí)仲裁器易形成瓶頸
· 隨端口數(shù)增加CrossPoint數(shù)量呈幾何增長
· 調(diào)度算法復(fù)雜度限制擴(kuò)展
· 背板限制帶寬擴(kuò)展且無法實(shí)現(xiàn)直通散熱
· 走線帶來信號衰減
· 基于cell的動態(tài)負(fù)載實(shí)現(xiàn)無阻塞
· 背板限制帶寬擴(kuò)展且無法實(shí)現(xiàn)直通散熱
· 基于cell的動態(tài)負(fù)載實(shí)現(xiàn)無阻塞
· 帶寬擴(kuò)展更換相應(yīng)網(wǎng)板即可
· 無背板設(shè)計(jì)實(shí)現(xiàn)交換機(jī)直通散熱
· 基于cell的動態(tài)負(fù)載實(shí)現(xiàn)無阻塞
適用設(shè)備
· 低密度槽位
· 高密度槽位
· 可面向未來1-3年擴(kuò)展
· 高密度槽位
· 可面向未來1-3年擴(kuò)展
· 高密度槽位
· 可面向未來10年擴(kuò)展
對于高端機(jī)架式交換機(jī),以Crossbar交換架構(gòu)和CLOS交換架構(gòu)為主。其中CLOS交換架構(gòu)是當(dāng)前大容量數(shù)據(jù)中心核心交換機(jī)的理想架構(gòu)。銳捷網(wǎng)絡(luò)RG-N18000-X系列交換機(jī)基于無阻塞的CLOS架構(gòu),并且首次采用“零背板”技術(shù),在提供高效、穩(wěn)定交換服務(wù)的同時(shí),可實(shí)現(xiàn)未來10年網(wǎng)絡(luò)可持續(xù)平滑升級。
來源:C114通信網(wǎng)