互聯(lián)網(wǎng)的應(yīng)用越來越廣泛,網(wǎng)絡(luò)應(yīng)用對(duì)網(wǎng)絡(luò)可用性和網(wǎng)絡(luò)性能的要求也越來越高,因此對(duì)網(wǎng)絡(luò)可用性和網(wǎng)絡(luò)性能的監(jiān)測(cè)也越來越重要。所謂網(wǎng)絡(luò)可用性是指端到端全網(wǎng)所能提供的無故障服務(wù)時(shí)間與全部運(yùn)行時(shí)間之比。網(wǎng)絡(luò)管理目標(biāo)有時(shí)就是關(guān)注網(wǎng)絡(luò)的可用性,即使網(wǎng)絡(luò)的可用性盡可能地接近100%。任何關(guān)鍵的網(wǎng)絡(luò)設(shè)備的停機(jī)都將影響到可用性[1],所謂網(wǎng)絡(luò)性能是指描述網(wǎng)絡(luò)運(yùn)行狀況的屬性,對(duì)于網(wǎng)絡(luò)性能的描述有多個(gè)參數(shù)[2]。CAIDA(cooperative association for Internet data analysis)和IETF(Internet engineering task force)的IPPM(IP performance monitoring)工作組是網(wǎng)絡(luò)測(cè)量方面的著名國(guó)際組織,它們對(duì)一些網(wǎng)絡(luò)性能參數(shù)給出了定義[3]。對(duì)于網(wǎng)絡(luò)可用性和網(wǎng)絡(luò)性能的測(cè)量主要有被動(dòng)測(cè)量和主動(dòng)測(cè)量?jī)煞N方式,由于主動(dòng)測(cè)量的部署和實(shí)施比較方便,所以一般采用主動(dòng)測(cè)量方式。在網(wǎng)絡(luò)監(jiān)測(cè)中通常采用綜合監(jiān)測(cè)網(wǎng)絡(luò)性能和網(wǎng)絡(luò)可用性(integration of network performance and network availability,INPNA)的方法。
目前國(guó)內(nèi)外有多個(gè)基于主動(dòng)測(cè)量的網(wǎng)絡(luò)監(jiān)測(cè)項(xiàng)目,著名的PingER[4]是當(dāng)前應(yīng)用在美國(guó)電報(bào)電話公司(AT&T)網(wǎng)絡(luò)上的監(jiān)測(cè)項(xiàng)目,于1998年在AT&T使用,并不斷更新和升級(jí),監(jiān)測(cè)內(nèi)容包括網(wǎng)絡(luò)可用性、單向時(shí)延、往返時(shí)延、丟包、路由、時(shí)延抖動(dòng)等。NLANR(national laboratory for applied network research)開發(fā)的AMP項(xiàng)目[5],監(jiān)測(cè)的內(nèi)容包括網(wǎng)絡(luò)可用性、往返時(shí)延和網(wǎng)絡(luò)帶寬等參數(shù)。NIMI[6]也是基于主動(dòng)測(cè)量的項(xiàng)目,測(cè)量網(wǎng)絡(luò)的可用性和網(wǎng)絡(luò)帶寬。韓國(guó)分布式處理和網(wǎng)絡(luò)管理實(shí)驗(yàn)室(distributed Processing & network management lab)開發(fā)了一套用于IP主干網(wǎng)的SLA監(jiān)測(cè)系統(tǒng)[7],該系統(tǒng)已應(yīng)用于韓國(guó)電信IP主干網(wǎng)的監(jiān)測(cè),監(jiān)測(cè)的內(nèi)容包括網(wǎng)絡(luò)可用性、往返時(shí)延、丟包率等。IP網(wǎng)絡(luò)性能監(jiān)測(cè)系統(tǒng)(performance monitoring & measurement system,PMMS)是解放軍理工大學(xué)指揮自動(dòng)化學(xué)院在國(guó)家“863”項(xiàng)目和總參通信部支持下研發(fā)的一種易于實(shí)施、操作的自動(dòng)化網(wǎng)絡(luò)級(jí)系統(tǒng),以端到端、定量、可視化的方式監(jiān)視、分析、管理互聯(lián)網(wǎng)運(yùn)行的性能參數(shù)[8]。
上述這些系統(tǒng)的實(shí)現(xiàn)都利用了網(wǎng)絡(luò)可用性與網(wǎng)絡(luò)性能之間的聯(lián)系,采用了INPNA方法。INPNA方法的最大優(yōu)勢(shì)是,在監(jiān)測(cè)網(wǎng)絡(luò)性能指標(biāo)的同時(shí),就能夠同時(shí)計(jì)算出網(wǎng)絡(luò)的可用性。然而,當(dāng)監(jiān)測(cè)指標(biāo)嚴(yán)格或網(wǎng)絡(luò)規(guī)模較大時(shí),INPNA方法可能無法兼顧網(wǎng)絡(luò)性能和網(wǎng)絡(luò)可用性。
1、對(duì)綜合監(jiān)測(cè)方法的分析
在綜合監(jiān)測(cè)方法中為了提高監(jiān)測(cè)網(wǎng)絡(luò)性能的準(zhǔn)確性,通常采用在一定的監(jiān)測(cè)周期內(nèi)發(fā)送多個(gè)探測(cè)數(shù)據(jù)包的方式,因?yàn)樘綔y(cè)包的時(shí)延和丟失率等參數(shù)與網(wǎng)絡(luò)鏈路情況和被測(cè)節(jié)點(diǎn)的忙閑程度關(guān)系很大。在高速網(wǎng)絡(luò)情況下要用統(tǒng)計(jì)的方法才能獲得相對(duì)準(zhǔn)確的測(cè)量數(shù)據(jù),監(jiān)測(cè)系統(tǒng)采用連續(xù)多次測(cè)試(如10次)的平均值來大致反映網(wǎng)絡(luò)當(dāng)時(shí)情況。
根據(jù)大量的實(shí)測(cè)經(jīng)驗(yàn),為提高測(cè)量參數(shù)的準(zhǔn)確性,通常采用下列監(jiān)測(cè)參數(shù)[4,9]:
測(cè)量包的長(zhǎng)度不同所反映的時(shí)延也不一致:長(zhǎng)包時(shí)延要大,短包的時(shí)延要小。因此測(cè)量時(shí)采用兩組參數(shù),11個(gè)短包,每個(gè)包100 byte(第一個(gè)被丟棄,因?yàn)榈谝粋(gè)探測(cè)包的時(shí)延通常要比后繼包大20%);10個(gè)長(zhǎng)包,每個(gè)包1 000 byte,測(cè)試數(shù)據(jù)包的發(fā)送在1 s以內(nèi),為了防止數(shù)據(jù)包集中發(fā)送,包之間的時(shí)延為20 ms。
網(wǎng)絡(luò)監(jiān)測(cè)的周期一般都比較長(zhǎng),如PingER的監(jiān)測(cè)周期為15 min,PMMS采用的默認(rèn)監(jiān)測(cè)周期為20 min,15 min或20 min對(duì)于網(wǎng)絡(luò)性能的監(jiān)測(cè)已經(jīng)足夠,而且產(chǎn)生的附加流量較少,但這樣的監(jiān)測(cè)周期對(duì)于網(wǎng)絡(luò)可用性監(jiān)測(cè)會(huì)產(chǎn)生較大的影響。
因?yàn)榫W(wǎng)絡(luò)可用性的監(jiān)測(cè)主要測(cè)量網(wǎng)絡(luò)的阻斷以及網(wǎng)絡(luò)阻斷的歷時(shí),在監(jiān)測(cè)中丟包率等于100%時(shí)為網(wǎng)絡(luò)阻斷,當(dāng)監(jiān)測(cè)周期較長(zhǎng)時(shí)對(duì)網(wǎng)絡(luò)阻斷測(cè)量的靈密度不高,導(dǎo)致網(wǎng)絡(luò)可用性的監(jiān)測(cè)數(shù)據(jù)不夠精確。
網(wǎng)絡(luò)阻斷測(cè)量的靈敏度與監(jiān)測(cè)的周期直接相關(guān),假設(shè)網(wǎng)絡(luò)出現(xiàn)阻斷的時(shí)間為X(min),監(jiān)測(cè)周期為T(min),發(fā)現(xiàn)網(wǎng)絡(luò)阻斷的概率為P(P≤1),則:
如果要提高對(duì)網(wǎng)絡(luò)阻斷測(cè)量的靈敏度,則要降低監(jiān)測(cè)周期T,只有當(dāng)X≥T時(shí),才能監(jiān)測(cè)到所有的網(wǎng)絡(luò)阻斷,但降低監(jiān)測(cè)周期會(huì)增加網(wǎng)絡(luò)的負(fù)載,產(chǎn)生較大的附加流量?捎霉接(jì)算產(chǎn)生的附加流量,設(shè)網(wǎng)絡(luò)的監(jiān)測(cè)周期為T(min),監(jiān)測(cè)的節(jié)點(diǎn)數(shù)為N,則節(jié)點(diǎn)產(chǎn)生的網(wǎng)絡(luò)流量為:
由式(2)可知,INPNA產(chǎn)生的附加流量與被測(cè)量節(jié)點(diǎn)的個(gè)數(shù)成正比,與測(cè)量周期成反比,當(dāng)網(wǎng)絡(luò)規(guī)模較大時(shí),被測(cè)節(jié)點(diǎn)的個(gè)數(shù)也較多。若被監(jiān)測(cè)設(shè)備為100個(gè),監(jiān)測(cè)周期為10 min,則產(chǎn)生的流量為:
由式(3)可知,所采用的監(jiān)測(cè)周期為10 min、被測(cè)節(jié)點(diǎn)為100個(gè)時(shí)所產(chǎn)生的附加流量非常大,而這種情況下對(duì)于網(wǎng)絡(luò)阻斷測(cè)量的靈敏度并不高,當(dāng)網(wǎng)絡(luò)阻斷時(shí)間小于10 min時(shí),不能保證監(jiān)測(cè)到所有網(wǎng)絡(luò)阻斷,而且無法監(jiān)測(cè)到阻斷歷時(shí)。
2、分離監(jiān)測(cè)方法SNPNA
SNPNA(separation of network performance and network availability)對(duì)于網(wǎng)絡(luò)性能和網(wǎng)絡(luò)可用性采用分離監(jiān)測(cè)的方式,SNPNA采用較大的時(shí)間周期(如20 min或30 min)來監(jiān)測(cè)網(wǎng)絡(luò)性能,同時(shí)采用較小的時(shí)間周期(如5 min或2 min)、高效的監(jiān)測(cè)算法來監(jiān)測(cè)網(wǎng)絡(luò)可用性,在測(cè)量過程中加入了網(wǎng)絡(luò)可用性、網(wǎng)絡(luò)性能與路由的關(guān)聯(lián)。
概括地說,SNPNA對(duì)于網(wǎng)絡(luò)可用性和網(wǎng)絡(luò)性能采用分開測(cè)量的方式,改進(jìn)了INPNA的不足,對(duì)于網(wǎng)絡(luò)性能的監(jiān)測(cè)同樣采用INPNA方法。
為了監(jiān)測(cè)網(wǎng)絡(luò)可用性,提出了一種稱為CP(continuous probing)的算法,CP的主要工作過程是:
。1)每隔一個(gè)周期向被監(jiān)測(cè)對(duì)象發(fā)送一個(gè)100 byte的ICMP_Ping分組,如果收到響應(yīng),則返回;
。2)若在指定時(shí)段內(nèi)沒有收到響應(yīng)。則再發(fā)送一個(gè)100 byte的UDP Ping分組,如果收到響應(yīng),則返回:
。3)若在指定時(shí)段內(nèi)沒有收到響應(yīng),則再發(fā)送一個(gè)100 byte的UDP Ping分組,如果收到響應(yīng),則返回,否則返回網(wǎng)絡(luò)不可用的標(biāo)志。
步驟2和3發(fā)送的是UDP的報(bào)文,不同于步驟1的測(cè)試報(bào)文,采用這種方式可以提高測(cè)量的精度,因?yàn)槟承┞酚善骰诎踩目紤],對(duì)ICMP(網(wǎng)間控制報(bào)文協(xié)議)報(bào)文不響應(yīng)。
分析CP算法的基本性能,監(jiān)測(cè)設(shè)備的個(gè)數(shù)為N,在正常的情況下,在每個(gè)周期T僅發(fā)送一個(gè)100 byte的Ping分組,產(chǎn)生的附加流量為:
也為最小附加流量。
在網(wǎng)絡(luò)異常(網(wǎng)絡(luò)阻斷)的情況下,在每個(gè)周期發(fā)送3個(gè)100 byte的Ping分組,產(chǎn)生的附加流量為:
也為最大附加流量。
表1給出了在網(wǎng)絡(luò)異常和網(wǎng)絡(luò)正常情況下,被測(cè)節(jié)點(diǎn)為100個(gè)時(shí),采用不同的監(jiān)測(cè)周期,CP算法的產(chǎn)生的附加流量及其對(duì)100 Mbit/s帶寬網(wǎng)絡(luò)的影響。
在INPNA中,如果為了兼顧網(wǎng)絡(luò)性能監(jiān)測(cè)和網(wǎng)絡(luò)可用性監(jiān)測(cè),要減小監(jiān)測(cè)的周期,但會(huì)產(chǎn)生較大的附加流量。表2給出了被測(cè)節(jié)點(diǎn)為100個(gè)時(shí),采用不同的監(jiān)測(cè)周期INPNA方法產(chǎn)生的附加流量及其對(duì)100 Mbit/s帶寬網(wǎng)絡(luò)的影響。
可見,隨著監(jiān)測(cè)周期變小,監(jiān)測(cè)所需要的附加流量將不斷增加。隨之而來的是,該附加流量對(duì)網(wǎng)絡(luò)的影響越來越大。因此,縮短監(jiān)測(cè)周期將使網(wǎng)絡(luò)侵?jǐn)_的問題愈發(fā)顯得嚴(yán)重。
對(duì)比表1和表2可見,采用CP算法后的確減輕了對(duì)網(wǎng)絡(luò)的侵?jǐn)_。
事實(shí)上,在采用CP算法對(duì)網(wǎng)絡(luò)可用性進(jìn)行監(jiān)測(cè)的同時(shí),還需要對(duì)網(wǎng)絡(luò)性能進(jìn)行監(jiān)測(cè),同樣可以計(jì)算出在SNPNA監(jiān)測(cè)中產(chǎn)生的附加流量。在SNPNA監(jiān)測(cè)中,設(shè)性能監(jiān)測(cè)周期為T1(s),可用性監(jiān)測(cè)周期為T2(s),監(jiān)測(cè)的設(shè)備數(shù)為N,則網(wǎng)絡(luò)阻斷時(shí)產(chǎn)生的附加流量為:
網(wǎng)絡(luò)無阻斷時(shí)產(chǎn)生的附加流量為:
由式(6)和式(7)可得,網(wǎng)絡(luò)可用性測(cè)量產(chǎn)生的附加流量在有無網(wǎng)絡(luò)阻斷的情況下對(duì)整體的附加流量影響都很小?紤]SNPNA性能時(shí),要同時(shí)考慮性能監(jiān)測(cè)、CP算法和特定的時(shí)間因素。假設(shè)同時(shí)監(jiān)測(cè)100個(gè)設(shè)備,在表3中列出了在不同監(jiān)測(cè)周期下,被測(cè)節(jié)點(diǎn)為100個(gè)時(shí),SNPNA產(chǎn)生的附加流量及對(duì)100 Mbit/s帶寬網(wǎng)絡(luò)的影響。
對(duì)比表1、表2和表3,可以得出以下結(jié)論:
●當(dāng)采用INPNA算法時(shí),產(chǎn)生的附加流量較大,尤其是監(jiān)測(cè)周期較短時(shí),對(duì)網(wǎng)絡(luò)影響較大;
●可用性監(jiān)測(cè)算法CP產(chǎn)生的附加流量很小。監(jiān)測(cè)周期為5 min時(shí)流量已經(jīng)相當(dāng)。
●當(dāng)采用SNPNA算法監(jiān)測(cè)時(shí),可采用較長(zhǎng)的網(wǎng)絡(luò)性能監(jiān)測(cè)周期和較短的網(wǎng)絡(luò)可用性監(jiān)測(cè)周期,能有效兼顧對(duì)網(wǎng)絡(luò)性能和對(duì)網(wǎng)絡(luò)可用性的監(jiān)測(cè)。
●分離監(jiān)測(cè)時(shí),可用性監(jiān)測(cè)的流量相對(duì)總附加流量很小,隨著可用性測(cè)量周期的增大,可用性監(jiān)測(cè)流量相對(duì)于總附加流量明顯減少。
SNPNA的測(cè)量采用Ping和Traceroute相結(jié)合的方式,對(duì)網(wǎng)絡(luò)性能參數(shù)的測(cè)量充分利用了性能參數(shù)之間的相關(guān)性。例如路由的變化往往會(huì)帶來許多其他相關(guān)影響。對(duì)于端到端路由來講,通常會(huì)引起RTT(往返時(shí)間)、丟包率和返回分組的TTL(生存時(shí)間)的變化等;從另一方面來講,網(wǎng)絡(luò)性能的變化常常是路由變化的誘因,網(wǎng)絡(luò)性能的變化會(huì)使得網(wǎng)絡(luò)節(jié)點(diǎn)根據(jù)路由選擇策略重新進(jìn)行路由,因此網(wǎng)絡(luò)性能的變化與路由的變化是息息相關(guān)的。通過分析網(wǎng)絡(luò)性能的變化,也可以對(duì)路由的變化進(jìn)行預(yù)測(cè)。
3、監(jiān)測(cè)結(jié)果
監(jiān)測(cè)環(huán)境為100 Mbit/s以太網(wǎng)交換機(jī)構(gòu)成的局域網(wǎng)通過租用中國(guó)電信公司的2 Mbit/s線路與互聯(lián)網(wǎng)連接。測(cè)試環(huán)境由4臺(tái)設(shè)備和7個(gè)被測(cè)點(diǎn)組成(參見圖1),其中在192.9.201.33主機(jī)上運(yùn)行SNPNA,在192.9.201.114主機(jī)上運(yùn)行INPNA,2臺(tái)試驗(yàn)機(jī)作為被測(cè)節(jié)點(diǎn)(192.9.201.112和192.9.201.1)。其中192.9.201.1為網(wǎng)關(guān),對(duì)互聯(lián)網(wǎng)上選定的7個(gè)被監(jiān)測(cè)點(diǎn)進(jìn)行監(jiān)測(cè),7個(gè)被監(jiān)測(cè)點(diǎn)的信息參見表4。
表4 被測(cè)點(diǎn)的詳細(xì)信息
所選擇的測(cè)試點(diǎn)的拓?fù)浞植既鐖D2所示,從圖中可以看出被測(cè)節(jié)點(diǎn)所經(jīng)過的網(wǎng)絡(luò)比較復(fù)雜。
測(cè)試時(shí)間為一周,SNPNA采用的監(jiān)測(cè)周期為性能監(jiān)測(cè)周期是20 min,可用性監(jiān)測(cè)周期是2 min;INPNA采用的監(jiān)測(cè)周期為10 min,對(duì)比表2和3可知。測(cè)試中SNPNA產(chǎn)生的附加流量要遠(yuǎn)小于INPNA所產(chǎn)生的附加流量。經(jīng)過一周的測(cè)試發(fā)現(xiàn),相對(duì)于INPNA,SNPNA在不影響性能監(jiān)測(cè)的情況下,能較好地監(jiān)測(cè)網(wǎng)絡(luò)的可用性。表5給出了一周的監(jiān)測(cè)情況,其中列出了SNPNA精確監(jiān)測(cè)到而INPNA沒有監(jiān)測(cè)到的網(wǎng)絡(luò)阻斷情況。
從表5可看出,網(wǎng)絡(luò)出現(xiàn)阻斷的時(shí)間一般都比較短,在監(jiān)測(cè)一周的時(shí)間內(nèi),沒有出現(xiàn)15 min以上的網(wǎng)絡(luò)阻斷。而如果采用INPNA的方式,則根據(jù)式(1),網(wǎng)絡(luò)阻斷被發(fā)現(xiàn)的概率較小,而且不能測(cè)量網(wǎng)絡(luò)阻斷的歷時(shí)。
通過測(cè)量發(fā)現(xiàn)阻斷的情況不同,發(fā)生在2006-1-18 17:11:45的網(wǎng)絡(luò)阻斷出現(xiàn)的原因是接入路由器出現(xiàn)故障,從測(cè)試點(diǎn)到接入路由器的鏈路出現(xiàn)異常,導(dǎo)致所有目的節(jié)點(diǎn)不可達(dá)。發(fā)生在2006-1-22 15:23:21的網(wǎng)絡(luò)阻斷出現(xiàn)的原因是網(wǎng)關(guān)出現(xiàn)故障所致。
經(jīng)過一周的測(cè)試,驗(yàn)證了可用性監(jiān)測(cè)程序的正確性,實(shí)驗(yàn)證明SNPNA在產(chǎn)生較少流量的情況下,能快速、準(zhǔn)確地測(cè)量網(wǎng)絡(luò)的可用性,與INPNA相比,對(duì)網(wǎng)絡(luò)可用性的監(jiān)測(cè)效率更高,對(duì)網(wǎng)絡(luò)性能的監(jiān)測(cè)功能相當(dāng),而且在SNPNA中通過把可用性監(jiān)測(cè)與PMMS[10]系統(tǒng)拓?fù)鋱D和告警功能相結(jié)合,能快速發(fā)現(xiàn)網(wǎng)絡(luò)故障點(diǎn)。
4、結(jié)束語
當(dāng)前的網(wǎng)絡(luò)監(jiān)測(cè)方法中,網(wǎng)絡(luò)性能和網(wǎng)絡(luò)可用性的監(jiān)測(cè)并沒有分離,當(dāng)網(wǎng)絡(luò)規(guī)模比較大時(shí),面臨監(jiān)測(cè)效率低的問題,而分離監(jiān)測(cè)方法是基于大規(guī)模網(wǎng)絡(luò)提出的提高監(jiān)測(cè)效率的方法,通過本文的數(shù)學(xué)分析和實(shí)際測(cè)量,證實(shí)了分離監(jiān)測(cè)方法能有效提高網(wǎng)絡(luò)性能監(jiān)測(cè)的效率。
參考文獻(xiàn)
1 陳鳴.計(jì)算機(jī)網(wǎng)絡(luò)工程設(shè)計(jì)——系統(tǒng)集成方法.北京:希望電子出版社.2002
2 趙洪華,陳鳴,李建等.網(wǎng)絡(luò)性能特性的描述和測(cè)量.解放軍理工大學(xué)學(xué)報(bào),2004(5):25~29
3 Lowekamp B,Tierney B,Cottrell L,et al.A hierarchy of network performance characteristics for grid applications and services.Global Grid Forum,July 2003
4 Mattews W,Cottrell L.The PingER project:active Internet performance monitoring for the HENP community.IEEE Communications Magazine,2000,38(5)
5 McGregor T, Braun H W,Brown J.The NLANR network analysis infrastructure. IEEE Communications Magazine,2000,38(5):122-128
6 Paxson V,Mahdavi J, Adams A,et al. An architecture for large-scale Internet measurement. IEEE Communications Magazine,1997,36(8):48~54
7 Hyo-Jin Lee,Myung-Sup Kim,Hong James W,et al. Mapping between QoS parameters and network performance metrics for SLA monitoring.In:Proc of APNOMS 2002,Jeju,Korea,September 2002
8 陳鳴,李兵,楊揚(yáng)等.分布式網(wǎng)絡(luò)性能監(jiān)測(cè)系統(tǒng).電信科學(xué),2003,19(5):60~63
9 陳鳴.互連網(wǎng)端到端性能綜合監(jiān)測(cè)方法及其系統(tǒng).國(guó)家發(fā)明專利(ZL 02138187.9),2004年
10 趙洪華.IP網(wǎng)絡(luò)性能監(jiān)測(cè)系統(tǒng)的改進(jìn).碩士學(xué)位畢業(yè)論文,2005年3月
11 Thoms M,Lucia H.Internet performance,monitoring. IEEE Communications Magazine,2002,40(8)