經(jīng)過(guò)長(zhǎng)時(shí)間的思考、探索和討論,基于IP建設(shè)下一代電信承載網(wǎng)在固網(wǎng)運(yùn)營(yíng)商的網(wǎng)絡(luò)轉(zhuǎn)型中已經(jīng)達(dá)成了一個(gè)共識(shí)。IP網(wǎng)絡(luò)開(kāi)始主要用于Internet接入和Intranet互連,如果要將IP網(wǎng)絡(luò)作為下一代承載網(wǎng),有幾個(gè)關(guān)鍵技術(shù)需要變革,主要體現(xiàn)在可靠性方面。本論文闡述了如何對(duì)現(xiàn)有IP技術(shù)進(jìn)行改進(jìn),從而使之在可靠性方面滿足電信級(jí)業(yè)務(wù)的承載要求。
一、電信級(jí)業(yè)務(wù)對(duì)網(wǎng)絡(luò)可靠性的要求
IP網(wǎng)絡(luò)的可靠性是影響業(yè)務(wù)提供的重要因素。未來(lái)的3G、IMS/NGN、IPTV等業(yè)務(wù)都將基于IP統(tǒng)一承載。承載網(wǎng)需要能夠同時(shí)支持語(yǔ)音、視頻、數(shù)據(jù)、企業(yè)互聯(lián)等多種業(yè)務(wù),實(shí)現(xiàn)音頻、視頻、數(shù)據(jù)三類媒體流的傳送,這三類媒體流對(duì)承載網(wǎng)的運(yùn)行指標(biāo)要求如下。
語(yǔ)音業(yè)務(wù):時(shí)延和時(shí)延抖動(dòng)小、丟包率小。
視頻業(yè)務(wù):高帶寬、傳輸時(shí)延和時(shí)延抖動(dòng)小。
數(shù)據(jù)業(yè)務(wù):非實(shí)時(shí)、突發(fā)性的業(yè)務(wù),對(duì)時(shí)延、抖動(dòng)要求低,但要求差錯(cuò)率低。
對(duì)于信令和網(wǎng)管,帶寬需求與業(yè)務(wù)流相比是很小的,延時(shí)要求比語(yǔ)音要求低,但差錯(cuò)率要求更高,這些可歸為高要求的數(shù)據(jù)業(yè)務(wù)。
盡管普通IP網(wǎng)絡(luò)有動(dòng)態(tài)協(xié)議、冗余連接等可靠性技術(shù),但是其性能遠(yuǎn)沒(méi)有達(dá)到電信級(jí)要求,從可靠性的指標(biāo)看,一個(gè)普通的IP網(wǎng)絡(luò)故障將導(dǎo)致業(yè)務(wù)中斷幾秒到分鐘量級(jí),這種指標(biāo)可以滿足傳統(tǒng)Internet數(shù)據(jù)業(yè)務(wù)傳送要求,但是無(wú)法滿足實(shí)時(shí)話音、視頻業(yè)務(wù)的服務(wù)質(zhì)量需求。
二、網(wǎng)絡(luò)可靠性的設(shè)計(jì)思路
首先,在網(wǎng)絡(luò)設(shè)計(jì)規(guī)劃中,我們應(yīng)在單個(gè)網(wǎng)元中設(shè)計(jì)大量的冗余機(jī)制。在網(wǎng)絡(luò)路由器和交換機(jī)中應(yīng)包含可熱切換的備份硬件元件。除此之外,還要設(shè)計(jì)智能的軟件機(jī)制,使得節(jié)點(diǎn)能從故障中快速恢復(fù),對(duì)應(yīng)用體驗(yàn)的影響最小。
其次,提高網(wǎng)絡(luò)可用度(Availability)的一個(gè)關(guān)鍵措施是在網(wǎng)絡(luò)設(shè)計(jì)中包含冗余,即創(chuàng)建一個(gè)包含了備用節(jié)點(diǎn)和候選鏈路的網(wǎng)絡(luò)拓?fù)洹?/p>
一個(gè)節(jié)點(diǎn)或者鏈路故障應(yīng)該存在一個(gè)快速檢測(cè)到故障的機(jī)制,以觸發(fā)把業(yè)務(wù)流轉(zhuǎn)移到備用路徑上的處理程序。
在PSTN中,一個(gè)用戶交換機(jī)通常連接到兩個(gè)或更多的匯接交換機(jī)(TransitExchanger)。當(dāng)一個(gè)匯接交換機(jī)故障或者電路中繼(circuittrunk)中斷時(shí),正在進(jìn)行的大量通話會(huì)中斷。用戶一般會(huì)嘗試重新發(fā)起通話,如果存在其他路由可以供交換機(jī)使用,那么用戶的再次嘗試可以成功。
IP網(wǎng)絡(luò)允許迅速地改變業(yè)務(wù)流的傳輸路徑,這意味著,只要能足夠快地切換話音業(yè)務(wù)流到一條具有相同帶寬的備用路徑上,語(yǔ)音通話不會(huì)中斷。在可用度方面,IP網(wǎng)絡(luò)有能力超越PSTN。如何設(shè)計(jì)一個(gè)能容忍任何鏈路和節(jié)點(diǎn)故障而不中斷業(yè)務(wù)的低成本的網(wǎng)絡(luò),是一個(gè)新的挑戰(zhàn)。這里我們把站點(diǎn)和站點(diǎn)之間的可靠通訊分解為站點(diǎn)到骨干網(wǎng)的可靠通訊、骨干網(wǎng)內(nèi)部的可靠通訊兩個(gè)部分。
三、快速故障檢測(cè)
對(duì)于典型的鏈路,如以太網(wǎng)、SDH、路由器都可以利用鏈路層協(xié)議快速檢測(cè)到故障。例如,當(dāng)和路由器端口連接的以太網(wǎng)線被拔出,路由器可以在10ms內(nèi)檢測(cè)到以太網(wǎng)端口處于DOWN狀態(tài)。
以前,路由器使用IP路由協(xié)議里的HELLO報(bào)文來(lái)判斷與之鄰接的路由器或基礎(chǔ)設(shè)施是否正常。不過(guò),路由協(xié)議的HELLO檢測(cè)機(jī)制太遲鈍,通常需要數(shù)十秒才能判定是否存在故障。IETF已經(jīng)開(kāi)發(fā)了雙向轉(zhuǎn)發(fā)檢測(cè)(BFD)協(xié)議實(shí)現(xiàn)快速檢測(cè)和鄰居節(jié)點(diǎn)之間的連通性狀態(tài)。BFD實(shí)際上是一個(gè)快速的HELLO協(xié)議。支持BFD的2個(gè)節(jié)點(diǎn)之間相互快速發(fā)送數(shù)據(jù)包,當(dāng)節(jié)點(diǎn)沒(méi)有接到預(yù)先設(shè)定數(shù)量的數(shù)據(jù)包時(shí),它推斷BFD所監(jiān)視的基礎(chǔ)設(shè)施發(fā)生故障,基礎(chǔ)設(shè)施可以是IP網(wǎng)、標(biāo)記交換路徑(LSP)、某種類型的IP隧道或以太網(wǎng)(ethernet)網(wǎng)絡(luò)。利用BFD,我們可以在更短時(shí)間內(nèi)檢測(cè)出兩個(gè)節(jié)點(diǎn)間的故障。
四、骨干網(wǎng)內(nèi)的可靠通信
為預(yù)防一條鏈路中斷,一個(gè)簡(jiǎn)單的策略是在每?jī)蓚(gè)路由器之間配置兩條一樣帶寬的鏈路,并且其中一條鏈路是備用鏈路。這個(gè)策略不僅使得鏈路數(shù)增加一倍,而且不能很好地適應(yīng)路由器故障的情況。當(dāng)一個(gè)路由器產(chǎn)生了故障,與這個(gè)路由器相連的數(shù)個(gè)鏈路都不能被繼續(xù)使用,網(wǎng)絡(luò)必須使用不含故障節(jié)點(diǎn)的迂回路徑。因此,使網(wǎng)絡(luò)能夠發(fā)現(xiàn)和利用繞過(guò)了故障點(diǎn)的新路徑是一個(gè)更好的策略。
在網(wǎng)絡(luò)無(wú)變更時(shí),站點(diǎn)之間的流量會(huì)在一個(gè)確定的路徑上持續(xù)傳送下去。當(dāng)網(wǎng)絡(luò)發(fā)生變更(如鏈路故障)時(shí),如果某些流量被重選路由,這會(huì)導(dǎo)致某些路由器以及它們之間的鏈路承受更大的業(yè)務(wù)流。
圖1 網(wǎng)絡(luò)路由選擇示意圖
如圖1所示,正常情況下,AR1和AR2之間的通訊路徑是AR1-CR1-CR2-AR2,AR3和AR4之間的通訊路徑是AR3-CR3-CR4-AR4。當(dāng)CR1和CR2之間的鏈路故障,AR1和AR2之間的通訊路徑將變?yōu)锳R1-CR1-CR3-CR4-CR2-AR2,在故障期間,CR3和CR4之間的業(yè)務(wù)量將大幅增長(zhǎng)。如果沒(méi)有采取合適的措施,則不僅AR1和AR2之間業(yè)務(wù)量的QoS降級(jí),而且AR3和AR4之間業(yè)務(wù)量的QoS也降級(jí)了。
我們采取的基本策略是,路由器使用DiffServ來(lái)支持各業(yè)務(wù)類的QoS。這個(gè)策略試圖保證發(fā)生故障后高優(yōu)先級(jí)業(yè)務(wù)(如語(yǔ)音)不受影響。然而,如果有太多的高優(yōu)先級(jí)業(yè)務(wù)類被匯聚到一個(gè)路徑上,例如,路由器發(fā)現(xiàn)需要處理的EF業(yè)務(wù)量超出了它的能力或輸出鏈路的容量,挽救故障路徑業(yè)務(wù)量的做法仍然可能使得更多其它業(yè)務(wù)的服務(wù)質(zhì)量惡化。為了能找到合適的新路徑,我們可以采取如下幾方面的措施。
1.設(shè)計(jì)先進(jìn)的網(wǎng)絡(luò)拓?fù),并精心地?zhí)行流量工程
我們也可以采用雙轉(zhuǎn)發(fā)平面方案。在這個(gè)方案里,骨干網(wǎng)將具有兩個(gè)轉(zhuǎn)發(fā)平面,分別稱為A,B平面。A,B平面的拓?fù)湎嗤蛘呦嗨。每個(gè)在A平面的路由器都有一個(gè)在B平面上的兄弟路由器,并且這兩個(gè)路由器被直接連接。如圖2,CR1和CR3、CR2和CR4是兄弟。不同的網(wǎng)絡(luò)解決方案將使用自己的流量工程方法以實(shí)現(xiàn)A平面和B平面承載不同的業(yè)務(wù)類。接入路由器同時(shí)連接到兩個(gè)轉(zhuǎn)發(fā)平面。在故障情況下,這兩個(gè)平面可以相互支援對(duì)方。在安裝時(shí),兄弟路由器對(duì)通常被安裝在相同的機(jī)房。這意味著,平面之間的鏈路不是長(zhǎng)途鏈路。
假設(shè)A平面承載語(yǔ)音業(yè)務(wù),使用的業(yè)務(wù)類是EF;B平面承載數(shù)據(jù)業(yè)務(wù),使用的業(yè)務(wù)類包含AF和BE,這時(shí)網(wǎng)絡(luò)的故障處理可以實(shí)現(xiàn)如下功能。
(1)對(duì)于A/B平面,AR和本平面的核心網(wǎng)之間產(chǎn)生通訊故障時(shí),可以利用平面間的備份機(jī)制,即業(yè)務(wù)流被注入到另一個(gè)平面。
(2)對(duì)于A平面,CR間鏈路或CR產(chǎn)生故障時(shí),可以利用平面間的備份機(jī)制,即業(yè)務(wù)流被注入到B平面。如圖2,CR1和CR2間鏈路發(fā)生故障后,AR1-CR1-CR2-AR2將被變更為AR1-CR1-CR3-CR4-AR2。
(3)對(duì)于B平面,CR間鏈路或CR故障時(shí),可以利用平面內(nèi)的備份機(jī)制,即在本轉(zhuǎn)發(fā)平面內(nèi)重新選擇路徑。
圖2 路由雙轉(zhuǎn)發(fā)平面方案
2.把故障路徑上的業(yè)務(wù)量拆分為若干流量中繼(TrafficTrunk),然后把這些流量中繼分配到不同的新路徑上
流量中繼的帶寬比故障鏈路小,這使得它易于找到合適的新路徑。如果不能為某些流量中繼發(fā)現(xiàn)可用的新路徑,則這些流量中繼將被丟棄。這個(gè)辦法在充分利用網(wǎng)絡(luò)資源的前提下使得通訊中斷損失最小。這個(gè)辦法產(chǎn)生了以下兩個(gè)技術(shù)需求。
(1)如何定義流量中繼并把它作為可路由的對(duì)象。一個(gè)典型定義是,把兩個(gè)站點(diǎn)間的一個(gè)業(yè)務(wù)類定義為一個(gè)流量中繼。一個(gè)流量中繼將被映射到由一系列鏈路和節(jié)點(diǎn)構(gòu)成的一個(gè)物理路徑上。骨干中的一條鏈路可能承載多個(gè)流量中繼。
(2)如何發(fā)現(xiàn)容量和負(fù)荷狀態(tài)滿足要求的新路徑。在小型網(wǎng)絡(luò)里,可以為每個(gè)可能的故障點(diǎn)配置備用路徑。在大中型網(wǎng)絡(luò)里,需要一種快速的自動(dòng)發(fā)現(xiàn)合適備用路徑的方案。
最后,網(wǎng)絡(luò)需要果斷地把業(yè)務(wù)量轉(zhuǎn)移到已發(fā)現(xiàn)的新路徑或規(guī)劃的備份路徑上。結(jié)合快速故障檢測(cè)機(jī)制,我們可以將A、B平面的切換時(shí)間控制在50ms內(nèi)。
五、客戶站點(diǎn)到骨干網(wǎng)的可靠通信
為使主機(jī)(如SS、MSCserver、TG)可靠地接入交換網(wǎng)絡(luò),可以使用兩個(gè)接入路由器(AR,AccessRouter),并啟用VRRP(VirtualRouter Redundancy Protocol)。VRRP將局域網(wǎng)中的一組路由器組織成一個(gè)備份組,它在功能上相當(dāng)于一臺(tái)虛擬路由器。當(dāng)前被使用的路由器出現(xiàn)故障時(shí),VRRP機(jī)制能選擇備份組中的其他路由器作為活動(dòng)(active)路由器來(lái)承擔(dān)傳輸工作。這個(gè)機(jī)制對(duì)于IP主機(jī)而言是透明的。普通VRRP機(jī)制的切換時(shí)間大概為2~3秒,快速故障檢測(cè)機(jī)制可以將切換時(shí)間縮短為50ms以內(nèi)。
圖3 使用虛擬路由器方案
圖3展示了一個(gè)使用了VRRP的站點(diǎn),這個(gè)站點(diǎn)里部署了兩個(gè)路由器和兩個(gè)二層交換機(jī)。如果路由器同時(shí)支持三層交換,則LAN交換機(jī)可以被省略。
通過(guò)使用上述技術(shù)和方案,我們可以將IP承載網(wǎng)的時(shí)延和時(shí)延抖動(dòng)均控制在電信級(jí)業(yè)務(wù)允許范圍內(nèi),解決了IP承載網(wǎng)的可靠性問(wèn)題,使之能夠正常承載電信級(jí)業(yè)務(wù),實(shí)現(xiàn)了電信業(yè)務(wù)IP化、IP網(wǎng)絡(luò)電信化的目標(biāo)。