摘要 OAM功能在公眾電信網(wǎng)中十分重要,尤其是對需要提供服務(wù)質(zhì)量保障的網(wǎng)絡(luò),OAM可以簡化網(wǎng)絡(luò)操作,檢驗(yàn)網(wǎng)絡(luò)性能和降低網(wǎng)絡(luò)運(yùn)行成本。MPLS(多協(xié)議標(biāo)簽交換)作為可擴(kuò)展的下一代網(wǎng)絡(luò)的關(guān)鍵承載技術(shù),提供具有QoS保障的多業(yè)務(wù)能力,因此MPLS網(wǎng)絡(luò)迫切需要具備OAM能力。
1、引言
根據(jù)運(yùn)營商網(wǎng)絡(luò)運(yùn)營的實(shí)際需要,通常將網(wǎng)絡(luò)的管理工作劃分為3大類:操作(Operation)、管理(Administration)、維護(hù)(Maintenance),簡稱OAM。操作主要完成日常網(wǎng)絡(luò)和業(yè)務(wù)進(jìn)行的分析、預(yù)測、規(guī)劃和配置工作;維護(hù)主要是對網(wǎng)絡(luò)及其業(yè)務(wù)的測試和故障管理等進(jìn)行的日常操作活動。
ITU-T(國際電信聯(lián)盟遠(yuǎn)程通信標(biāo)準(zhǔn)化組)對OAM功能進(jìn)行了定義:①性能監(jiān)控并產(chǎn)生維護(hù)信息,根據(jù)這些信息評估網(wǎng)絡(luò)的穩(wěn)定性;②通過定期查詢的方式檢測網(wǎng)絡(luò)故障,產(chǎn)生各種維護(hù)和告警信息;③通過調(diào)度或者切換到其它的實(shí)體,旁路失效實(shí)體,保證網(wǎng)絡(luò)的正常運(yùn)行;④將故障信息傳遞給管理實(shí)體。
OAM功能在公眾網(wǎng)中十分重要,它可以簡化網(wǎng)絡(luò)操作,檢驗(yàn)網(wǎng)絡(luò)性能和降低網(wǎng)絡(luò)運(yùn)行的成本。在提供保障服務(wù)質(zhì)量的網(wǎng)絡(luò)中,OAM功能尤為重要。傳統(tǒng)的SDH/SONET和ATM中都定義了相應(yīng)的OAM功能,MPLS作為可擴(kuò)展的下一代網(wǎng)絡(luò)的關(guān)鍵承載技術(shù),提供具有QoS保障的多業(yè)務(wù)能力,因而,MPLS網(wǎng)絡(luò)的迫切需要具備OAM能力。OAM機(jī)制不僅要預(yù)防網(wǎng)絡(luò)故障的發(fā)生,而且需要實(shí)現(xiàn)對網(wǎng)絡(luò)故障的迅速診斷和定位,最終提高網(wǎng)絡(luò)的可用性和對用戶的服務(wù)質(zhì)量。
MPLS OAM技術(shù)目前還處于初始的發(fā)展階段,只形成了少量建議、標(biāo)準(zhǔn)和一些草案。ITU-T在建議Y.170即《用于MPLS網(wǎng)絡(luò)的OAM功能總體要求》中描述了MPLS網(wǎng)絡(luò)中用戶平面OAM功能的驅(qū)動因素和基本要求(用戶平面指用戶數(shù)據(jù)流經(jīng)過一系列流量轉(zhuǎn)發(fā)實(shí)體)。為了保障MPLS網(wǎng)絡(luò)的可靠性及性能,運(yùn)營商迫切需要在MPLS網(wǎng)絡(luò)中加入OAM功能。
2、MPLS OAM功能要求
MPLS引入了全新的網(wǎng)絡(luò)架構(gòu),其相應(yīng)的網(wǎng)絡(luò)故障具有MPLS層特色,因而,位于MPLS以上或者以下的網(wǎng)絡(luò)層的OAM功能無法滿足MPLS OAM的特殊需要。對MPLS OAM功能的要求源自于其推動因素,一般來說MPLS OAM主要完成以下一些功能。
(1)OAM功能檢測到路徑失效或者中斷時,及時發(fā)現(xiàn)故障、發(fā)出告警信號、診斷、定位故障,并采取適當(dāng)?shù)幕謴?fù)措施,減少故障引起用戶數(shù)據(jù)傳輸中斷的時間。
(2)OAM功能應(yīng)同時適應(yīng)于永久連接和按需建立的連接。
(3)特定網(wǎng)絡(luò)層中的故障不應(yīng)引起多層的連鎖反應(yīng),避免客戶層(即IP層)采取不必要措施。
(4)在大型網(wǎng)絡(luò)中OAM機(jī)制運(yùn)行必須穩(wěn)定。
(5)手工激活或者配置MPLS OAM的工作量必須最小化,以滿足大型網(wǎng)絡(luò)中大量LSP OAM需要。
(6)MPLS OAM對運(yùn)營商來說應(yīng)具有足夠的靈活性,運(yùn)營商可以自主決定在特定LSP上使用特定OAM功能。
(7)MPLS OAM功能必須是后向兼容的,即對于不支持該功能的標(biāo)簽交換路由器(LSR),自動丟棄OAM信息,不影響用戶的數(shù)據(jù)或者采取不正常措施。
(8)具有測量單個LSP可用性和QoS的能力。
(9)MPLS OAM功能獨(dú)立于下層承載網(wǎng)絡(luò)和上層業(yè)務(wù),不影響原有上下層網(wǎng)絡(luò)和業(yè)務(wù)的正常運(yùn)行。
(10)MPLS用戶層OAM和控制層OAM功能相輔相成,缺一不可。
(11)對各種故障的類型要有明確的定義和可量化的尺度,明確與定義及故障類型相對應(yīng)的各種措施。至少應(yīng)實(shí)現(xiàn)以下幾種MPLS用戶平面故障的檢測:LSP連接中斷或者失效;LSP誤合并(包括環(huán)回情況);非受控組播。
(12)OAM分組必須具有糾錯機(jī)制,抗線路誤碼。
3、MPLS OAM技術(shù)
實(shí)現(xiàn)OAM功能可以有幾種方式,第一種是定義專用的OAM標(biāo)簽進(jìn)行網(wǎng)絡(luò)性能監(jiān)控,故障告警,類似于ATM中的信元和SDH中的開銷;第二種使用類似于傳統(tǒng)IP網(wǎng)絡(luò)中的ping和Traceroute等工具。此外,還包括故障恢復(fù)機(jī)制,網(wǎng)絡(luò)優(yōu)化機(jī)制和網(wǎng)絡(luò)管理的功能。
3.1 故障檢測技術(shù)
3.1.1 MPLS ping
MPLS ping是一種檢測MPLS LSP數(shù)據(jù)平面故障的方法,這個方法簡單有效,可以發(fā)現(xiàn)一些控制平面無法發(fā)現(xiàn)的故障,為用戶提供了一種在短時間內(nèi)發(fā)現(xiàn)和隔離路由黑洞或者路由丟失等故障的方法。MPLS ping模擬ICMP echo request和replay,通過ping和TRaceroute發(fā)現(xiàn)和定位網(wǎng)絡(luò)故障。
該解決方案的基本思路是采用屬于特定FEC轉(zhuǎn)發(fā)類的分組,驗(yàn)證屬于該FEC的LSP(從Ingress LSR到Egress LSR)的完整性,在MPLS ping echo請求消息中攜帶了所屬FEC的信息。MPLS ping分組封裝在UDP包中,包含序列號和時戳參數(shù)。MPLS在處理MPLS ping請求消息時采用了與該FEC分組相同的轉(zhuǎn)發(fā)策略。在采用ping進(jìn)行連通性測試時,分組到達(dá)LSP的出口,在出口處LSR控制平面對分組進(jìn)行檢查,驗(yàn)證該LSP是否是該FEC的真正出口。Traceroute模式可以作為故障定位的一種手段,發(fā)起測試的LSR向目的LSR的控制平面發(fā)送Ping分組,該分組的TTL初始值為1步進(jìn)值為1,這些LSR對該分組執(zhí)行各種檢查,進(jìn)一步返回相關(guān)控制和數(shù)據(jù)平面的信息。如果ping失敗可以采用Traceroute對故障進(jìn)行定位,也可以通過周期性的Traceroute FEC驗(yàn)證實(shí)際數(shù)據(jù)轉(zhuǎn)發(fā)路徑和控制平面路徑是否一致。但是要注意的是,過于頻繁的echo消息會對LSR的控制平面造成很大負(fù)載,應(yīng)慎用。
3.1.2 RSVP節(jié)點(diǎn)故障檢測
資源預(yù)留協(xié)議(RSVP)“Hello”擴(kuò)展可以使RSVP節(jié)點(diǎn)發(fā)現(xiàn)鄰近節(jié)點(diǎn)是否可達(dá),這種機(jī)制提供了節(jié)點(diǎn)級的故障檢測能力。鄰近故障檢測是通過收集和存儲鄰近節(jié)點(diǎn)的“Instance”值實(shí)現(xiàn)的,如果鄰近節(jié)點(diǎn)的instant值發(fā)生變化或者沒有按時發(fā)送hello信息,就可以判斷該節(jié)點(diǎn)重啟或者節(jié)點(diǎn)間連接發(fā)生故障。節(jié)點(diǎn)定期向鄰近節(jié)點(diǎn)發(fā)送包含Hello請求目標(biāo)的Hello消息,產(chǎn)生Hello消息的時間間隔由hello interval參數(shù)控制,默認(rèn)值為5 ms。
3.2 故障恢復(fù)技術(shù)——保護(hù)切換
保護(hù)切換技術(shù)對于提高M(jìn)PLS網(wǎng)絡(luò)的可用性和穩(wěn)定性具有關(guān)鍵意義。保護(hù)切換意味著對受保護(hù)LSP路由的預(yù)計算和資源的預(yù)分配,可以保證在LSP連接失效或者中斷后快速重新獲得網(wǎng)絡(luò)資源。目前的技術(shù)只能支持點(diǎn)到點(diǎn)的LSP保護(hù)切換,可以采用兩種保護(hù)方式:1+1保護(hù)和1:1保護(hù)。
1+1保護(hù)使用一條專用的備份LS P作為主LSP保護(hù),在Ingress LSR處,主LSP和備份LSP橋接在一起,主LSP上的流量復(fù)制到備份LSP上,同時傳送到Egress LSR,Egress LSR根據(jù)故障指示參數(shù)的取值,選擇接收主備LSP上的流量。
1:1保護(hù)時也使用專用的備分LSP作為主LSP的保護(hù),但是主備LSP不同時傳送相同的流量,備份LSP在主LSP工作正常的前提下可以傳送其它流量,流量的保護(hù)切換裁決在Ingress LSR進(jìn)行。
保護(hù)切換發(fā)生的前提是:①由網(wǎng)管發(fā)起;②LSP故障,且配置了備份了LSP。這兩種LSP保護(hù)切換機(jī)制都是基于LSP的,朗訊公司還提出了一種區(qū)別于ITU-T,基于分組的1+1路徑保護(hù)機(jī)制,可以做到在保護(hù)切換時不丟棄傳送中途的用戶流量。其原理是在傳送的分組中加入序列號,Egress LSR可以根據(jù)序列號信息準(zhǔn)確地從備份LSP中恢復(fù)出主LSP在切換時損失的中途流量。
3.3 快速重路由
為了滿足諸如視頻會議電視這類實(shí)時應(yīng)用,有必要對這些流量提供毫秒級的LSP保護(hù)切換能力。
上文提到的保護(hù)切換技術(shù),需要信令協(xié)議的介入,故障點(diǎn)到恢復(fù)點(diǎn)的故障指示信令傳遞引入了不必要的網(wǎng)絡(luò)恢復(fù)延時,快速重路由技術(shù)可以實(shí)現(xiàn)在沒有信令介入的情況下,由故障檢測點(diǎn)直接對故障鏈路流量進(jìn)行重定向,恢復(fù)點(diǎn)即為故障點(diǎn)。多數(shù)的快速重路由方案依賴預(yù)先建立的備份通道,當(dāng)網(wǎng)絡(luò)恢復(fù)點(diǎn)檢測到網(wǎng)絡(luò)故障時,要做的工作是簡單地更新LSP交換表,使流量從故障端口的LSP切換到預(yù)先在正常端口建立的LSP。
快速重路由的優(yōu)勢除了可以提高保護(hù)恢復(fù)的速度外,通過有選擇地在網(wǎng)絡(luò)薄弱環(huán)節(jié)配置保護(hù)能力,避免了因重復(fù)保護(hù)可靠網(wǎng)絡(luò)而消耗核心網(wǎng)絡(luò)資源。在IETF中有多種快速重路由方案,兩種主流的保護(hù)方式為鏈路保護(hù)和節(jié)點(diǎn)保護(hù),其解決問題的思路和復(fù)雜度各異,目前該技術(shù)還沒有形成正式的標(biāo)準(zhǔn)。
3.4 故障恢復(fù)技術(shù)對比
快速重路由技術(shù)和保護(hù)切換技術(shù)都可以作為防止鏈路、節(jié)點(diǎn)甚至LSP故障引起丟包,提高網(wǎng)絡(luò)可用性指標(biāo)的技術(shù),具體選擇何種技術(shù),需要考慮如下因素:①是否需要預(yù)先分配的資源;②要求的恢復(fù)速度;③配置和信令增加的復(fù)雜度;④數(shù)據(jù)轉(zhuǎn)發(fā)路徑長度的變化。
3.5 網(wǎng)絡(luò)優(yōu)化——MPLS流量工程
MPLS TE是一種網(wǎng)絡(luò)流量優(yōu)化工具,通過特定的信令協(xié)議(RSVP,CR—LDP)協(xié)定服務(wù)質(zhì)量等參數(shù),實(shí)現(xiàn)人為控制和干預(yù)MPLS流量選路,實(shí)現(xiàn)網(wǎng)絡(luò)流量和資源利用優(yōu)化的目的,MPLS TE的路徑選擇可以由路由協(xié)議根據(jù)網(wǎng)絡(luò)管理人員給出的服務(wù)質(zhì)量參數(shù)自動計算出符合條件的路徑,或者是網(wǎng)管依據(jù)對網(wǎng)絡(luò)流量信息的可靠了解進(jìn)行手工選路和配置。MPLS TE賦予網(wǎng)管極大的靈活性,可以對IP/MPLS網(wǎng)絡(luò)中的流量、流向進(jìn)行控制和管理,大量的MPLS TE可以加強(qiáng)網(wǎng)絡(luò)疏通流量的能力,但是如果沒有一個高效的管理工具,也會增加網(wǎng)絡(luò)運(yùn)營的復(fù)雜度。
MPLS TE能有效地處理節(jié)點(diǎn)間平行鏈路的流量分流,通過對LSP帶寬參數(shù)的控制、LSP和底層鏈路之間的映射,可以實(shí)現(xiàn)對鏈路資源的優(yōu)化使用。
在實(shí)際網(wǎng)絡(luò)中可能存在這些需求,將某種類型的流量限制在特定的鏈路中,或者控制特定流量在選路時忽略某些鏈路,一個最典型的例子就是對國際鏈路上流量選路的控制,通過MPLS TE,可以防止非國際業(yè)務(wù)流占用國際鏈路的寶貴帶寬。MPLS流量工程可以支持LSP的搶占,對于帶寬較大的LSP或比較重要的用戶,運(yùn)營商可能希望它有較高的搶占優(yōu)先級,以優(yōu)先獲得其它LSP的資源。
3.6 網(wǎng)絡(luò)管理——MPLS SNMP MIBs
IETF Network工作組制定了多個有關(guān)MPLS MIB的草案,對MPLS模型中的管理對象進(jìn)行定義,目前這些草案都還沒有成為標(biāo)準(zhǔn)。這些草案定義的MIB分為4個主要部分,分別是MPLS、CCAMP、PWE3和PPVPN,IETF相應(yīng)的工作組在研究相關(guān)內(nèi)容。
4、MPLS OAM應(yīng)用
運(yùn)營商希望大型骨干網(wǎng)的OAM解決方案可以覆蓋3個主要方面:故障檢測、網(wǎng)絡(luò)可靠性測量和網(wǎng)絡(luò)狀態(tài)監(jiān)控。目前,大多數(shù)MPLS應(yīng)用基于IP,如MPLS BGP VPN、RSVP TE等,上文介紹的OAM機(jī)制基本上可以滿足運(yùn)營商對這類應(yīng)用的要求。使用MPLS OAM還必須結(jié)合其它網(wǎng)絡(luò)維護(hù)管理工具,結(jié)合SLA,規(guī)范維護(hù)流程。