摘要:P2P流量檢測技術可分為基于流量特征的識別方法(TLI)和基于深層數(shù)據(jù)包識別方法(DPI)。TLI通過對傳輸層數(shù)據(jù)包進行分析并結(jié)合P2P系統(tǒng)所表現(xiàn)出來的流量特征,來識別某個網(wǎng)絡流是否屬于P2P。DPI采用協(xié)議分析與還原技術,提取P2P應用層數(shù)據(jù),通過分析其載荷所包含的協(xié)議特征值,來判斷網(wǎng)絡流量是否屬于P2P應用。DPI由于具有準確性高、健壯性好、具有分類功能,是P2P流量識別的主要方法。如果能夠結(jié)合TLI和DPI的優(yōu)點,就有可能設計出一個準確、高效的P2P流量實時識別算法。
近年來,對等網(wǎng)絡(P2P)的用戶規(guī)模、應用類型和流量均呈爆發(fā)式增長。分析結(jié)果表明,基于P2P的語音通信軟件Skype在中國同時在線用戶數(shù)高達900萬,P2P互聯(lián)網(wǎng)電視(如PPLive、PPStream等)的注冊用戶數(shù)已超過1億,在線收視者數(shù)達到100~500萬。P2P應用類型也已經(jīng)從文件共享,擴展到語音、視頻等應用領域。同樣,中國互聯(lián)網(wǎng)實際流量模式分析報告表明,P2P流量已占整個互聯(lián)網(wǎng)流量的60%。
有鑒于此,國際網(wǎng)絡設備生產(chǎn)商和網(wǎng)絡服務提供商相繼推出了P2P流量識別與監(jiān)管產(chǎn)品。P2P流量檢測設備包括網(wǎng)絡緩存設備、應用層流量管理設備、流統(tǒng)計狀態(tài)路由器和智能防火墻等。主要包括Cisco公司的NetFlow技術[1]、Allot公司的故障恢復流量管理方案[2]、CacheLogic公司的CacheLogic P2P管理方案[3]、 Verso Technologies公司的NetSpective系列產(chǎn)品[4]等,這些產(chǎn)品都使用了自行研發(fā)的深層數(shù)據(jù)包檢測技術,除了在性能和識別精度上存在差別外,其技術的本質(zhì)是相同的。
相對來說,中國對于P2P流量識別技術的研究工作較少,不僅缺乏高質(zhì)量學術論文,也缺乏高效的P2P多媒體內(nèi)容識別與過濾產(chǎn)品。從產(chǎn)品角度來看,中國部分網(wǎng)絡設備生產(chǎn)商雖然推出了P2P流量監(jiān)控的相關產(chǎn)品,如CAPTECH的網(wǎng)絡管理軟件——網(wǎng)絡慧眼CAP[5],但是由于這些產(chǎn)品采用的都是深層數(shù)據(jù)包檢測技術,因此在性能、開銷等方面存在很多問題。
開展高效、準確的P2P流量(尤其是多媒體內(nèi)容)實時識別與過濾相關技術研究,不僅有利于合理利用互聯(lián)網(wǎng)基礎設施、合理利用P2P技術、合理部署P2P應用,有利于制止非法內(nèi)容在P2P網(wǎng)絡中的傳播,也有助于維護中國互聯(lián)網(wǎng)的健康環(huán)境和營造一個和諧的網(wǎng)絡社會。
1 對等網(wǎng)絡流量檢測的困難性
對等網(wǎng)絡是一種分布式網(wǎng)絡,其中的參與者共享他們所擁有的一部分硬件資源(處理能力、存儲能力等),這些共享資源需要由網(wǎng)絡提供服務和內(nèi)容,能被其他節(jié)點(peer)直接訪問而無需經(jīng)過中間實體。在此網(wǎng)絡中的參與者既是資源提供者(即服務器),又是資源獲取者(即客戶)。對等網(wǎng)絡的代表性應用是文件共享(如Napster)。但是,P2P不僅僅是用于文件共享,它還包括建立基于P2P形式的通信網(wǎng)絡、P2P計算或其他資源的共享等很多方面。P2P最根本的思想,同時也是它與客戶/服務器模型(C/S)最顯著的區(qū)別在于網(wǎng)絡中的節(jié)點既可以獲取其他節(jié)點的資源或服務同時又是資源或服務的提供者,即兼具客戶機和服務器的雙重身份。一般P2P網(wǎng)絡中每一個節(jié)點所擁有的權(quán)利和義務都是對等的,包括通信、服務和資源消費。
從分類來看,可以將P2P分為純P2P和混合P2P兩種模式。純P2P網(wǎng)絡中不存在中心實體或服務器,從網(wǎng)絡中移去任何一個單獨的、任意的終端實體,都不會給網(wǎng)絡中的服務帶來大的損失。而混合P2P網(wǎng)絡中則需要有中心實體來提供部分必要的網(wǎng)絡服務,如保存元信息、提供索引或路由、提供安全檢驗等。
P2P應用的飛速發(fā)展,雖然豐富了互聯(lián)網(wǎng)的內(nèi)容,但其流量的爆發(fā)式增長和不加限制的帶寬占用,不僅給互聯(lián)網(wǎng)基礎設施帶來了巨大沖擊,也給Internet服務提供商(ISP)和應用服務提供商(ASP)高級服務的部署帶來了很多問題。此外,P2P網(wǎng)絡也迅速成為惡意代碼、黃色淫穢內(nèi)容、反動信息、盜版資源等傳播的沃土。
因此,對等網(wǎng)絡的快速識別與分類,不僅為運營商提高服務質(zhì)量(QoS)提供技術支持,也可以為對等網(wǎng)絡上的內(nèi)容監(jiān)管(如惡意代碼識別、病毒防御)提供保障。但是,由于對等網(wǎng)絡的內(nèi)在特性,其流量識別存在以下特殊性:
(1)不確定性
由于對等網(wǎng)絡應用的多樣性(如文件共享、語言通信、視頻通信)等,因此對等網(wǎng)絡流量不僅在流量特征上,而且在行為特征上也表現(xiàn)出不確定性。此外,對等網(wǎng)絡中節(jié)點的動態(tài)性也增加了對等網(wǎng)絡流量的不確定性。這種流量的不確定性,為實現(xiàn)對等網(wǎng)絡的流量識別帶來了諸多困難。
(2)海量性
對等網(wǎng)絡不僅應用多種多樣,而且規(guī)模極大(如文件共享式P2P系統(tǒng)Bittortent總同時在線節(jié)點可高達100萬),因此一般來說,對等網(wǎng)絡流量均較大。對等網(wǎng)絡流量的海量性,給流量的實時檢測帶來了性能問題。
(3)加密性
由于對等網(wǎng)絡屬于應用層,因此為了躲避內(nèi)容監(jiān)管,現(xiàn)有P2P系統(tǒng)均對其載荷進行了加密處理。加密特性使得常規(guī)的模式識別算法很難直接應用于對等網(wǎng)絡中。因此,必須尋求新的流量檢測技術與檢測方法才能解決P2P流量識別的準確性和可靠性問題。
上述特殊性使得對對等網(wǎng)絡的流量進行正確、高效和實時識別帶來了很多困難。從技術層面來看,現(xiàn)有P2P流量檢測技術大致可分為基于流量特征的識別方法(TLI)和基于深層數(shù)據(jù)包識別方法(DPI)。此外,網(wǎng)絡設備提供商和安全產(chǎn)品提供商也開展了P2P流量識別與監(jiān)管的研發(fā)工作。
2 基于流量特征的P2P流量識別技術
在P2P系統(tǒng)中,每個節(jié)點既是客戶機也是服務器,這種節(jié)點充當雙重角色的特點,也使得P2P應用在傳輸層表現(xiàn)出與其他網(wǎng)絡應用(如HTTP、FTP、DNS、EMAIL等)不同的流量特征。因此,基于流量特征的P2P流量檢測方法的基本思想是:通過對傳輸層數(shù)據(jù)包(包括TCP和UDP數(shù)據(jù)包)進行分析,并結(jié)合P2P系統(tǒng)所表現(xiàn)出來的流量特征,來識別某個網(wǎng)絡流是否屬于P2P。這類方法包括:TCP/UDP端口識別技術、網(wǎng)絡直徑分析技術、節(jié)點角色分析技術、協(xié)議對分析技術和地址端口對分析技術等。
傳輸控制協(xié)議/數(shù)據(jù)報協(xié)議(TCP/UDP)端口識別技術利用第一代P2P系統(tǒng)多采用固定的服務端口的特點來識別P2P系統(tǒng)。例如,文獻[5]第一次提出了P2P流量識別問題,并利用端口識別技術,對Fast-Track、Gnutella和Direct-Connect 3種具有代表性的P2P系統(tǒng)的流量特征進行了分析,F(xiàn)有P2P系統(tǒng)所采用的常用服務端口如表1所示。由于許多P2P應用為了躲避流量審計與過濾,往往采用隨機端口技術,因此TCP/UDP端口識別技術存在嚴重的漏報問題。
網(wǎng)絡直徑分析技術利用了P2P系統(tǒng)所組成的邏輯網(wǎng)絡具有網(wǎng)絡直徑大這一特點。在P2P系統(tǒng)中,節(jié)點之間需要建立連接。與物理連接不同,P2P系統(tǒng)中的連接是邏輯連接,因此所形成的P2P網(wǎng)絡屬于邏輯網(wǎng)絡。文獻[6]通過記錄網(wǎng)絡中每個節(jié)點與其他節(jié)點建立連接的情況而得到P2P系統(tǒng)的邏輯連接拓撲圖,并計算其網(wǎng)絡直徑。文獻[6]的研究結(jié)果表明,與他網(wǎng)絡應用所形成的邏輯網(wǎng)絡相比,P2P系統(tǒng)所形成的邏輯網(wǎng)絡具有更大的直徑。因此,如果網(wǎng)絡直徑超過某個門限值,則該網(wǎng)絡中的節(jié)點就是P2P節(jié)點,相應的流量就是P2P流量。由于網(wǎng)絡直徑的計算需要記錄整個網(wǎng)絡的連接狀態(tài),因此不僅存儲和計算開銷大,而且也不支持P2P流量的實時識別與過濾。
節(jié)點角色分析技術利用了P2P系統(tǒng)中每個節(jié)點具有多重角色的特點。P2P系統(tǒng)中的每個節(jié)點,既是客戶機,也是服務器。因此,如果可以判斷某個邏輯網(wǎng)絡中具有這種雙重角色的節(jié)點數(shù),就可以確定該網(wǎng)絡是否為P2P網(wǎng)絡。例如,文獻[6]通過記錄并計算網(wǎng)絡中同時充當客戶機和服務器兩個角色的節(jié)點數(shù),發(fā)現(xiàn)如果該數(shù)超過某個門限值,則這些節(jié)點所形成的網(wǎng)絡就是P2P網(wǎng)絡,而該網(wǎng)絡中的節(jié)點就是P2P節(jié)點,相應的流量也既是P2P流量。與網(wǎng)絡直徑分析一樣,節(jié)點角色分析技術也需要記錄整個網(wǎng)絡的連接狀態(tài),因此同樣面臨存儲與計算開銷大、無法供P2P流量的實時識別與過濾功能等問題。
協(xié)議對分析技術利用了P2P系統(tǒng)可能同時使用TCP和UDP協(xié)議的特點。實際分析結(jié)果表明,P2P系統(tǒng)一般采用UDP來發(fā)送命令等控制信息,而采用TCP協(xié)議來傳輸數(shù)據(jù)。在一般的應用中,通常一個應用極少出現(xiàn)同時使用UDP協(xié)議和TCP協(xié)議的情況。因此,可以利用P2P系統(tǒng)的這個特征來識別P2P流量。例如,文獻[7]所采用的協(xié)議對分析技術中,通過判斷在時間t 內(nèi),某個“源-目的IP地址對”之間,是否同時使用了TCP和UDP協(xié)議。如果是,則這兩個節(jié)點之間的流量就有可能是P2P流量;反之,則可能不是P2P流量。由于域名服務器(DNS)等應用也會同時使用TCP協(xié)議和UDP協(xié)議,因此協(xié)議對技術存在嚴重的誤報問題。
地址端口對分析技術也是利用了P2P系統(tǒng)中節(jié)點角色多樣性的特點。地址端口對技術[7]的依據(jù)是,在P2P系統(tǒng)中,每個節(jié)點既是客戶機,也是服務器。為了能夠接受其他節(jié)點建立連接的請求,每個節(jié)點都需要廣播自己的IP地址和提供服務的端口(記為{目的IP,目的端口},簡稱目的地址端口對)。而為了與其他節(jié)點建立連接,每個節(jié)點隨機選擇一個源端口,使用自己的IP地址(記為{源IP,源端口},簡稱源地址端口對),并利用其他節(jié)點所廣播的IP地址和端口對信息來建立連接。由于每個節(jié)點與另外一個節(jié)點建立連接時,不論是源節(jié)點還是目的節(jié)點,都使用隨機源端口技術,因此對于廣播了目的地址斷口對的節(jié)點A來說,與自己建立了連接的源IP地址數(shù)和源端口數(shù)應大致相同。相反,其他應用(如HTTP)往往需要建立多個連接來傳送數(shù)據(jù),因此來自于同一個源IP的節(jié)點可能采用不同的源端口,與Web服務器建立多條連接,其源IP數(shù)與源端口數(shù)往往不同。為此,在單位時間t 內(nèi),如果網(wǎng)絡流的源IP數(shù)與源端口數(shù)相同,則該流量可能就是P2P流量。地址端口對具有性能高的優(yōu)點,但是缺乏實時識別與過濾的能力。
除了上述有關P2P流量檢測技術外,還有以下基于流量特征的P2P流量檢測技術。文獻[8]通過兩種方法來識別BitTorrent流量:
(1)許多節(jié)點向同一個節(jié)點發(fā)送大量數(shù)據(jù)且在目的節(jié)點出現(xiàn)握手數(shù)據(jù)包。
(2)某個節(jié)點廣播大量UDP數(shù)據(jù)包,并隨之發(fā)送了大量握手數(shù)據(jù)包。
文獻[9]利用P2P系統(tǒng)的連接錯誤率等TCP流的特征來識別P2P流量。文獻[10]結(jié)合Skype具有“中繼”的特性,通過考察P2P流量的如下特征參數(shù)來識別網(wǎng)絡流是否為P2P:開始時間差、結(jié)束時間差、流的速率、兩個流的時間相關系數(shù)。通過實驗分析,文獻[10]證明具有中繼特性的Skype流量具有如下特征:開始時間差一般小于5秒、結(jié)束時間差一般小于5秒、進入流的比特率與出來流的比特率大小基本相等、兩個P2P流的時間相關系數(shù)不小于0.37。因此,可以利用這4個特征參數(shù),來識別具有中繼特征的Skype及其他P2P流量。
3 基于應用層數(shù)據(jù)檢測的P2P流量識別技術
基于應用層數(shù)據(jù)檢測的P2P流量識別技術是通過協(xié)議分析與還原技術,提取P2P應用層數(shù)據(jù)(即P2P載荷),通過分析P2P載荷所包含的協(xié)議特征值,來判斷是否屬于P2P應用。因此,這類方法也叫做深層數(shù)據(jù)包檢測技術(DPI)。在深層數(shù)據(jù)包檢測技術中,通過對具體的P2P協(xié)議及其對應的P2P系統(tǒng)的載荷進行特征提取,建立特征庫。對于流經(jīng)的實時網(wǎng)絡流,采用模式匹配算法,判斷其中是否包含特征庫中的特征串。如果特征匹配成功,該網(wǎng)絡流就是P2P數(shù)據(jù)。
文獻[11-15]都采用了DPI的P2P流量識別技術。文獻[11]對Gnutella、Edonkey、DirebtConnect、BitTorrent以及Kazaa的協(xié)議特征進行了分析,并據(jù)此對應用層數(shù)據(jù)進行分析來識別是否是P2P流量。文獻[12]利用應用層數(shù)據(jù)分析技術,對多媒體流量進行了識別分析。
此外,也有少量文獻探討了結(jié)合基于流量特征方法和基于應用層數(shù)據(jù)的檢測技術。相關文獻參見文獻[13]和文獻[14]。文獻[13]對比了3種P2P流量識別技術:端口分析技術、應用層簽名、傳輸層分析。文獻[14]引入誘餌節(jié)點,并結(jié)合應用層簽名分析技術對日本流行的P2P系統(tǒng)Winny的流量進行了分析。
4 兩種P2P流量識別技術的優(yōu)缺點及比較分析
基于流量特征的檢測技術的優(yōu)點包括可擴展性好、性能高和可識別加密數(shù)據(jù)流。
可擴展性好是指該方法利用了P2P應用所具有普適性流量特征,不僅可以發(fā)現(xiàn)已有的P2P流量,也可以識別新的、符合普適性流量特征的P2P流量。
性能高是由于不需要對協(xié)議進行解析和還原,且也不需要對P2P應用載荷進行分析,因此計算開銷和存儲開銷小,識別算法性能高?勺R別加密P2P流量是由于基于流量特征的檢測技術不依賴具體的P2P應用載荷,因此,數(shù)據(jù)是否加密對檢測算法沒有影響。
但是,基于流量特征的P2P流量識別技術也具有很多不足,其主要缺點包括:準確性差、健壯性差、缺乏流量分類功能等。有兩個因素決定了基于流量特征的P2P流量識別技術存在準確性差的缺點。第一個因素是P2P流量特征不一定唯一:很多流量特征都不是P2P流量唯一的,其他應用也有可能表現(xiàn)出這種流量特征來。因此,該方法存在誤判問題,即將不是P2P流量的網(wǎng)絡流,誤認為是P2P流量。第二個因素是網(wǎng)絡環(huán)境復雜。例如,由于不對稱路由和丟包、重傳現(xiàn)象的存在,導致無法精確確定流量特征,從而有可能對P2P流量檢測的精確度造成影響。健壯性差是指由于不能處理數(shù)據(jù)包丟失、重組等,因此不能適應復雜的P2P應用。缺乏分類功能是指由于傳輸層流量特征一般不能明確指示應用層協(xié)議類型,所以這種方法對P2P應用分類的能力較弱,而對P2P應用進行細分類,對于執(zhí)行P2P流量監(jiān)管措施(如禁封、限速、提供服務質(zhì)量QoS等)非常重要。
深層數(shù)據(jù)包檢測技術易于理解、升級方便、維護簡單,是目前運用最普遍的P2P流量識別方法。其主要優(yōu)點包括:準確性高、健壯性好、具有分類功能等。準確性高是由于該方法執(zhí)行精確特征匹配,因此極少存在誤判問題。健壯性好是由于可以處理數(shù)據(jù)包丟失、重組等,因此能適應復雜的P2P應用。具有分類功能是由于深層數(shù)據(jù)包檢測技術可以依據(jù)不同P2P應用的載荷特征來準確分類P2P應用,因此可以為實施P2P流量監(jiān)管策略提供準確的信息。
但是,深層數(shù)據(jù)包檢測技術的缺點包括可擴展性差、缺乏加密數(shù)據(jù)分析功能、性能低等?蓴U展性差是由于該方法對新P2P應用的流量識別具有滯后性,即在未升級特征庫前無法檢測新的P2P應用,必須找到新應用的載荷特征后,才能對該應用實施有效檢測。缺乏加密數(shù)據(jù)分析功能是由于P2P載荷加密,隱藏了P2P應用的協(xié)議和數(shù)據(jù)特征,因此深層數(shù)據(jù)包檢測技術對加密P2P應用的檢測能力非常有限。性能低是由于需要完成協(xié)議解析還原和特征匹配等操作,因此計算和存儲開銷大,流量檢測算法性能低。載荷特征越復雜,檢測代價越高,算法性能也越差。各種P2P流量識別算法的比較如表2所示,其中,基于流量特征的P2P流量識別技術包括端口分析、網(wǎng)絡直徑分析、節(jié)點角色分析、協(xié)議對分析和地址端口對分析等。
5 結(jié)束語
基于流量特征和基于應用數(shù)據(jù)分析技術是目前主要的P2P流量識別方法。從P2P流量識別的技術現(xiàn)狀來看,基于應用數(shù)據(jù)分析技術的深層數(shù)據(jù)分析方法DPI由于具有準確性高、健壯性好、具有分類功能,且過去的P2P系大都未加密,因此是P2P流量識別的主要方法。但是,基于DPI技術也面臨諸如如何提供檢測算法的性能、如何支持對加密數(shù)據(jù)的分析、如何更新P2P應用特征庫等問題。同樣,基于流量特征的P2P流量識別方法雖然具有性能高、可擴展性好的有點,但由于準確性差,因此在實際應用中也面臨諸多困難。此外,現(xiàn)有方法都以離線數(shù)據(jù)分析為主,缺乏P2P流量的實時識別能力。從本質(zhì)來看,基于流量特征的檢測屬于啟發(fā)式方法,而深層數(shù)據(jù)分析屬于精確匹配方法。如果能夠結(jié)合這兩種方法的優(yōu)點,就有可能設計出一個準確、高效的P2P流量實時識別算法來。為此,研究啟發(fā)式深層數(shù)據(jù)分析實時識別算法將是進一步研究的主要內(nèi)容。
6 參考文獻
[1] Cisco Systems Inc. NetFlow services solutions guide [EB/OL].
http :∥www.cisco.com/, 2007.
[2] Allot Communications Ltd [EB/OL].
http ://www.allot.com, 2007.
[3] CacheLogic [EB/OL]. http ://www.cachelogic.com, 2007.
[4] Verso Technologies [EB/OL]. http ://www.verso.com/, 2007.
[5] SEN S, WANG J. Analyzing peer-to-peer traffic across large networks [J]. IEEE/ACM Transactions on Networking, 2004,12(2):219-232.
[6] CONSTANTINOU F, MAVROMMATIS P Identifying known and unknown peer-to-peer traffic [C]// Proceedings of Fifth IEEE International Symposium on Network Computing and Applications, Jul 24-26,2006, Cambridge, MA, USA. Los Alamitos, CA,USA: IEEE Computer Society, 2006: 93-102.
[7] KARAGIANNIS T, BROIDO A, FALOUTSOS M, et al. Transport layer identification of P2P traffic [C]// Proceedings of the 4th ACM SIGCOMM Conference on Internet Measurement, Oct 25-27, 2004, Taormina, Italy. New York, NY, USA: ACM, 2004:121-134.
[8] HORNG Mong-Fong, CHEN Chun-Wei, Chuang Chin-Shun, et al. Identification and analysis of P2P traffic- an example of bit torrent [C]//Proceedings of International Conference on Innovative Computing, Information and Control (ICICIC2006):Vol. 2, Aug 30 - Sep 1, 2006, Beijing, China.2006:266-269.
[9] ZHOU Lijuan, LI Zhitong, LIU Bin. P2P traffic identification by TCP flow analysis [C]// Proceedings of International Workshop on Networking, Architecture, and Storages, Sep,2006, Shenyang, China. Los Alamitos, CA, USA: IEEE Computer Society, 2006.
[10] SUH K, FIGUEIREDO D R, KUROSE J, et al. Characterizing and detecting skype-relayed traffic [C]// Proceedings of IEEE Conference on Computer Communications (INFOCOM 2006), Apr 26, 2006, Barcelona, Spain .2006:1-12.
[11] SEN S, SPATSCHECK O, WANG Dongmei. Accurate, scalable in-network identification of P2P traffic using application signatures [C]//Proceedings of the 13th International Conference on World Wide Web, May 17-20, 2004, New York, NY,USA .New York, NY,USA: ACM, 2004:512-521.
[12] WANG Rui, LIU Yang, YANG Yuexiang, et al. Solving the app-level classification problem of P2P traffic via optimized support vector machines [C]// Proceedings of Sixth International Conference on Intelligent Systems Design and Applications (ISDA '06): Vol 2, Oct 16-18, 2006, Jinan, China. Los Alamitos, CA, USA: IEEE Computer Society, 2006:534-539.
[13] MADHUKAR A, WILLIAMSON C. A longitudinal study of P2P traffic classification [C]// Proceedings of 14th IEEE International Symposium on Modeling, Analysis, and Simulation of Computer and Telecommunication Systems, Sep 11-13, 2006, Monterey, CA, USA. Los Alamitos, CA, USA: IEEE Computer Society, 2006:179-188.
[14] OHZAHATA S, HAGIWARA Y, TERADA M, et al. A traffic identification method and evaluations for a pure P2P application [C]// Proceedings of 2005 Passive and Active Measurement (PAM'05), Boston, MA,USA. Berlin,Germany: Springer-Verlag , 2005:55-68.
[15] KANG H J, KIM M S, HONG J W. Streaming media and multimedia conferencing traffic analysis using payload examination [J]. ETRI Journal, 2004,26(3):203-217.