劉輝 葉紹志 黃暉 李星
摘要 本文首先介紹了IPv6搜索引擎發(fā)展的國內(nèi)外背景、網(wǎng)絡(luò)指南針I(yè)Pv6搜索引擎的主要技術(shù)特點和實現(xiàn);然后基于網(wǎng)絡(luò)指南針?biāo)阉饕孢\行過程中得到的數(shù)據(jù),從多個角度分析了全球IPv6網(wǎng)絡(luò)的發(fā)展,包括站點的分布、規(guī)模、類型等;最后對IPv6的發(fā)展趨勢進(jìn)行了展望。
關(guān)鍵詞 IPv6 搜索引擎 網(wǎng)絡(luò)指南針
1 引言
1999年,CERNET在中國教育網(wǎng)范圍內(nèi)組建了IPv6試驗床,在試驗床的pTLA(pseudo Top Level Aggregation)地址范圍內(nèi)開始分配地址,同時開始進(jìn)行有關(guān)IPv6各種特性的研究與開發(fā)!熬W(wǎng)絡(luò)指南針聯(lián)盟”是CERNET網(wǎng)絡(luò)中心自主開發(fā)的網(wǎng)絡(luò)搜索引擎聯(lián)盟,同時也是教育網(wǎng)“網(wǎng)絡(luò)指南針”搜索引擎的第二版本,提供一系列不同資源的搜索服務(wù),自2000年7月開始正式運行。2000年諾基亞資助“網(wǎng)絡(luò)指南針”進(jìn)行IPv6搜索引擎的開發(fā)。網(wǎng)絡(luò)指南針I(yè)Pv6搜索引擎從2001年5月份開始提供正式穩(wěn)定的Web服務(wù)。
分析一個網(wǎng)絡(luò)發(fā)展的狀況有很多方法,如分析路由表項、DNS服務(wù)器、用戶行為等。在半年的運行時間內(nèi),網(wǎng)絡(luò)指南針積累了大量關(guān)于全球IPv6 Web站點的數(shù)據(jù),從搜索引擎的角度分析IPv6在全球的發(fā)展?fàn)顩r,在國內(nèi)外還比較少,并具有一定的實際意義。
2 網(wǎng)絡(luò)指南針I(yè)Pv6搜索引擎的實現(xiàn)
目前,網(wǎng)絡(luò)指南針?biāo)阉饕嫘〗M正在進(jìn)一步地研究開發(fā)IPv6搜索引擎,傳統(tǒng)的搜索引擎系統(tǒng)包括數(shù)據(jù)的采集、索引和查詢?nèi)齻部分。IPv6搜索引擎和IPv4搜索引擎的最大的不同之處在于數(shù)據(jù)的采集。要訪問基于IPv6協(xié)議棧的Web服務(wù)器,就必須要使用支持IPv6的網(wǎng)絡(luò)蜘蛛(搜索引擎中用來在網(wǎng)絡(luò)上采集數(shù)據(jù)的一種軟件),網(wǎng)絡(luò)指南針I(yè)Pv6搜索引擎所采用的主要采集程序是IPv6 Wget(Wget是一個Linux環(huán)境下用于從World Wide Web上提取文件的工具,這是一個GPL許可證下的自由軟件,其作者為Hrvoje Niksic),并考慮到現(xiàn)在IPv6 Web服務(wù)器數(shù)量少,文件總數(shù)相對不多,采集鏈路不穩(wěn)定的情況,對采集程序做了一定的優(yōu)化,主要有:超時設(shè)定、重試次數(shù)、時間標(biāo)簽和采集深度,以保證采集的快速有效。IPv6和IPv4搜索引擎的另一明顯差別是IPv6 Web站點數(shù)量較少而且現(xiàn)在尚沒有一個覆蓋范圍比較廣的站點數(shù)據(jù)庫,為解決這一問題,網(wǎng)絡(luò)指南針小組從采集所得到的數(shù)據(jù)中分析出指向其他IPv6站點的超鏈接,從而獲得更多的IPv6站點,將這些站點加入網(wǎng)絡(luò)蜘蛛的采集目標(biāo)中,就可以迅速地增加IPv6搜索引擎的數(shù)據(jù)量和覆蓋范圍。
3 網(wǎng)絡(luò)指南針I(yè)Pv6搜索引擎數(shù)據(jù)分析
3.1 IPv6站點的國家分布情況
從6bone得到的數(shù)據(jù)顯示,現(xiàn)在已經(jīng)有1000多個IPv6站點在上面注冊,搜索引擎采集到100多提供Web服務(wù)的IPv6站點的數(shù)據(jù),對這些站點的所在國家進(jìn)行統(tǒng)計,得到IPv6站點的國分布情況(如圖1所示)。
圖1 IPv6站點的國家分布
從圖1可以看出日本的迅猛發(fā)展,歐洲共同體的整體發(fā)展優(yōu)勢以及美國這個網(wǎng)絡(luò)大國對待IPv
6不冷不熱的態(tài)度。IPv6對于亞洲地區(qū),尤其對于中國來說具有特別的意義,中國所有的IPv4地址總和還比不上美國一個著名大學(xué)分配的IPv4地址數(shù)量,技術(shù)的差別造成了網(wǎng)絡(luò)資源分配的巨大不平等。為了在下一代網(wǎng)絡(luò)中占據(jù)主動權(quán),亞洲地區(qū)在IPv6的發(fā)展上投入了大量的人力、物力,同時也取得了很大的發(fā)展。
3.2 IPv6站點類型情況
除了常見的幾種站點,如com、net、org等,很多由國家實驗室或商業(yè)企業(yè)聯(lián)合實驗室建立的IPv6站點用來進(jìn)行IPv6技術(shù)的研究開發(fā),這類站點被歸入IPv6 實驗站點類別。不同國家的后綴名有不同規(guī)定,如日本的商業(yè)站點后綴為co,學(xué)術(shù)站點后綴為ad,按照站點的類型分別歸入com、net、org、edu四大類型。
通過分析IPv6站點類型的分布(如圖2所示),可以從一個側(cè)面了解不同領(lǐng)域、行業(yè)的人們對于IPv6發(fā)展的不同態(tài)度和舉措,有助于判斷當(dāng)前IPv6技術(shù)所處的階段和形勢,以及進(jìn)一步發(fā)展面臨的機會與挑戰(zhàn)。
圖2 IPv6站點的類型分布
從圖2可以看到,IPv6站點中學(xué)術(shù)和非盈利機構(gòu)站點的數(shù)目所占比例較大,說明目前IPv6站點的建立和發(fā)展還主要是處于科研和測試階段;商業(yè)站點已經(jīng)占有相當(dāng)?shù)姆蓊~,相當(dāng)一部分是商業(yè)機構(gòu)投資于IPv6技術(shù)的研發(fā),其中已經(jīng)有一些采用IPv6技術(shù)的產(chǎn)品投入市場,如Nokia與CERNET在IPv6方面的合作。
3.3 IPv6站點規(guī)模情況
關(guān)于站點規(guī)模,有很多度量方法,這里根據(jù)搜索引擎的數(shù)據(jù)特點,采用了兩種度量方式,一個國家擁有的所有IPv6站點的頁面數(shù)總和以及平均頁面數(shù)(頁面數(shù)總和除以站點數(shù))。
圖3 IPv6站點規(guī)模的國家分布
圖3中每個國家的兩個立柱,左邊代表總頁面數(shù),右邊代表平均頁面數(shù)。日本的頁面總數(shù)居于首位,這與日本的發(fā)展速度之快十分吻合。其它國家站點規(guī)模的分布情況與IPv6站點的分布趨勢大致相似,在全球范圍內(nèi)仍然呈現(xiàn)分布不均的趨勢,三個地域(亞洲、歐洲、北美)的IPv6分布集中,歐洲一些國家的IPv6站點數(shù)目雖然并不是很多,而且規(guī)模比較小,但地區(qū)分布比較廣泛,IPv6技術(shù)的發(fā)展比較普及,其它地區(qū)很少甚至沒有。有一個特例,意大利的總頁面數(shù)不是很突出,但平均頁面數(shù)遙遙領(lǐng)先,原因是意大利有幾個十分龐大的IPv6站點。這個特例其實反映了IPv6網(wǎng)絡(luò)的規(guī)模仍然很小,分配到不同的國家就更加有限,使得個別站點對總體數(shù)據(jù)的影響較大,隨著IPv6網(wǎng)絡(luò)像IPv4一樣在全球范圍內(nèi)普及開來,圖3所示的反,F(xiàn)象就不會再出現(xiàn)。
圖4 IPv6站點規(guī)模的增長
圖4的數(shù)據(jù)分別來自2001年的10月和11月(左邊代表10月27日,右邊代表11月11日),反映了在短短的一個月內(nèi)IPv6動態(tài)增長的情況。可見日本在IPv6領(lǐng)域具有良好的開端,而且始終保持全速前進(jìn)的勢頭,增長速度遠(yuǎn)遠(yuǎn)超過其他地區(qū)。
3.4 IPv6站點的引用率
本文中對一個站點引用率的判斷依據(jù)是其它站點對該站點的引用次數(shù),表1中僅列舉了根據(jù)搜索引擎采集的頁面進(jìn)行分析得到的排名前十名的站點。
從表1中可以看出:引用率最高的站點主要還是來自日本、美國等IPv6技術(shù)發(fā)展先進(jìn)的國家;引用率最大的站點的規(guī)模并不是非常大,說明站點的重要性主要還是取決于站點的內(nèi)容;有一個有趣的事實,www.freebsd.org的引用率比其它站點高出兩個數(shù)量級,造成這個巨大差距的原因是FreeBSD是一種廣泛流行的UNIX操作系統(tǒng),也是IPv6實現(xiàn)的最主要平臺。
4 結(jié)論
通過對網(wǎng)絡(luò)指南針I(yè)Pv6搜索引擎采集到的全球IPv6站點網(wǎng)的數(shù)據(jù)進(jìn)行分析,可以得到最全面的關(guān)于IPv6站點的發(fā)展?fàn)顩r的靜態(tài)統(tǒng)計和分析。另外,由于搜索引擎的動態(tài)更新,可以對IPv6站點的動態(tài)變化進(jìn)行即時的跟蹤和分析,觀察IPv6站點發(fā)展的趨勢。因此搜索引擎作為信息檢索理論在網(wǎng)絡(luò)上的應(yīng)用,對于分析網(wǎng)絡(luò)增長行為具有特殊的意義。本文通過對“網(wǎng)絡(luò)指南針聯(lián)盟”采集到的IPv6站點數(shù)據(jù)進(jìn)行分析,得出以下結(jié)論:
(1) 作為下一代網(wǎng)絡(luò)的IP協(xié)議,IPv6的發(fā)展與地區(qū)IPv4網(wǎng)絡(luò)的技術(shù)基礎(chǔ)和發(fā)展程度有著密切聯(lián)系,但更為重要的因素是該國家(地區(qū))的發(fā)展戰(zhàn)略和策略選擇。亞洲地區(qū)的地址耗盡促使日本、中國等地區(qū)成為IPv6技術(shù)的積極實施者。歐洲地區(qū)雄厚的資金和技術(shù)實力,以及它們希望在下一代網(wǎng)絡(luò)中占據(jù)主動的目標(biāo),使得歐洲在IPv6的發(fā)展方面具有整體的優(yōu)勢。美國的IPv4地址還可以維持一段時間,因此并不需要竭盡全力來發(fā)展新的協(xié)議,但其強大的技術(shù)基礎(chǔ)不可小視。
(2) 目前IPv6網(wǎng)絡(luò)還遠(yuǎn)遠(yuǎn)不能夠和IPv4抗衡,主要的IPv6站點目的還是為了研究和測試。從IPv4到IPv6的過渡,不僅是技術(shù)上的革新,更意味著巨大的商業(yè)戰(zhàn)略和商業(yè)投資,盡管新興的網(wǎng)絡(luò)社會充滿了商機和希望,但風(fēng)險更大,因此IPv6的商業(yè)化程度還遠(yuǎn)遠(yuǎn)不夠,大多數(shù)的企業(yè)積極研發(fā),靜觀發(fā)展,當(dāng)IPv6成為Internet的必需品時,他們就會群起爭奪IPv6產(chǎn)品的市場,這就是IPv6實驗站點比例較高的原因。
(3) 在搜索引擎采集數(shù)據(jù)的過程中,發(fā)現(xiàn)相對于IPv4的網(wǎng)頁來說,IPv6的網(wǎng)絡(luò)具有明顯的不穩(wěn)定性,一個原因是IPv6網(wǎng)絡(luò)處于成長期,增長速度較快,截至2002年1月20日網(wǎng)絡(luò)指南針已經(jīng)采集到103個站點的15萬網(wǎng)頁;另一個原因是實驗站點比重較大,許多站點尚未提供成熟穩(wěn)定的網(wǎng)絡(luò)服務(wù)。
搜索引擎采集到的是一部分已經(jīng)提供WWW服務(wù)的IPv6站點數(shù)據(jù),從一定程度上可以反映整個IPv6網(wǎng)絡(luò)的發(fā)展和增長情況。但是由于實驗周期比較短,采集到的站點數(shù)量有限,鏈路狀況不能保持穩(wěn)定,本文的結(jié)論也存在局限性。但從WWW服務(wù)的角度來分析IPv6站點對于分析IPv6網(wǎng)絡(luò)的增長來說是一種獨特的方法,將對網(wǎng)絡(luò)發(fā)展的研究產(chǎn)生積極的作用。
摘自《電信科學(xué)》