基于數(shù)據(jù)挖掘技術(shù)入侵檢測(cè)系統(tǒng)研究

高翔1,王敏2,胡正國(guó)1


1.西北工業(yè)大學(xué) 計(jì)算機(jī)科學(xué)與工程系


2.空軍工程大學(xué) 電訊工程學(xué)院




  摘 要:入侵檢測(cè)技術(shù)已經(jīng)成為網(wǎng)絡(luò)安全領(lǐng)域的研究熱點(diǎn)。本文介紹了入侵檢測(cè)的分類以及應(yīng)用在入侵檢測(cè)中的數(shù)據(jù)挖掘方法,并闡述了構(gòu)建的基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)。


  關(guān)鍵詞:網(wǎng)絡(luò)安全,數(shù)據(jù)挖掘,入侵檢測(cè)


  隨著網(wǎng)絡(luò)在現(xiàn)代社會(huì)中發(fā)揮愈來愈重要的作用,利用計(jì)算機(jī)網(wǎng)絡(luò)犯罪也呈現(xiàn)出明顯的上升趨勢(shì)。如何建立安全而又健壯的網(wǎng)絡(luò)系統(tǒng),保證重要信息的安全性,已經(jīng)成為研究的焦點(diǎn)。以往采用的方式多是防火墻的策略,它可以防止利用協(xié)議漏洞、源路由、地址仿冒等多種攻擊手段,并提供安全的數(shù)據(jù)通道,但是它對(duì)于應(yīng)用層的后門,內(nèi)部用戶的越權(quán)操作等導(dǎo)致的攻擊或竊取,破壞信息卻無能為力。另外,由于防火墻的位置處在網(wǎng)絡(luò)中的明處,自身的設(shè)計(jì)缺陷也難免會(huì)暴露給眾多的攻擊者,所以僅僅憑借防火墻是難以抵御多種多樣層出不窮的攻擊的。


  因此,為了保證網(wǎng)絡(luò)系統(tǒng)的安全,就需要有一種能夠及時(shí)發(fā)現(xiàn)并報(bào)告系統(tǒng)中未授權(quán)或異常現(xiàn)象的技術(shù),即入侵檢測(cè)技術(shù)。



1 入侵檢測(cè)系統(tǒng)簡(jiǎn)介


  入侵檢測(cè)技術(shù)可以分為兩類:


 。1)濫用檢測(cè)(Misuse Detection)濫用檢測(cè)是利用已知的入侵方法和系統(tǒng)的薄弱環(huán)節(jié)識(shí)別非法入侵。該方法的主要缺點(diǎn)為:由于所有已知的入侵模式都被植入系統(tǒng)中,所以,一旦出現(xiàn)任何未知形式的入侵,都無法檢測(cè)出來。但該方法的檢測(cè)效率較高! 。2)異常檢測(cè)(Anomaly Detection)異常檢測(cè)是通過檢查當(dāng)前用戶行為是否與已建立的正常行為輪廓相背離來鑒別是否有非法入侵或越權(quán)操作。該
方法的優(yōu)點(diǎn)是無需了解系統(tǒng)缺陷,適應(yīng)性較強(qiáng)。但發(fā)生誤報(bào)的可能性較高。


  入侵檢測(cè)系統(tǒng)中的用戶行為主要表現(xiàn)為數(shù)據(jù)形式。根據(jù)數(shù)據(jù)的來源不同,入侵檢測(cè)系統(tǒng)可以分為基于主機(jī)的和基于網(wǎng)絡(luò)的兩種。前者的數(shù)據(jù)來自操作系統(tǒng)的審計(jì)數(shù)據(jù),后者來自網(wǎng)絡(luò)中流經(jīng)的數(shù)據(jù)包。由于用戶的行為都表現(xiàn)為數(shù)據(jù),因此,解決問題的核心就是如何正確高效地處理收集到的數(shù)據(jù),并從中得出結(jié)論。


2 基于數(shù)據(jù)挖掘技術(shù)的入侵檢測(cè)系統(tǒng)


  在入侵檢測(cè)系統(tǒng)中使用數(shù)據(jù)挖掘技術(shù),通過分析歷史數(shù)據(jù)可以提取出用戶的行為特征、總結(jié)入侵行為的規(guī)律,從而建立起比較完備的規(guī)則庫來進(jìn)行入侵檢測(cè)[1]。該過程主要分為以下幾步[2]:


  數(shù)據(jù)收集基于網(wǎng)絡(luò)的檢測(cè)系統(tǒng)數(shù)據(jù)來源于網(wǎng)絡(luò),可用的工具有TCPDUMP等。


  數(shù)據(jù)的預(yù)處理在數(shù)據(jù)挖掘中訓(xùn)練數(shù)據(jù)的好壞直接影響到提取的用戶特征和推導(dǎo)出的規(guī)則的準(zhǔn)確性。如果在入侵檢測(cè)系統(tǒng)中,用于建立模型的數(shù)據(jù)中包含入侵者的行為,那么以后建立起的檢測(cè)系統(tǒng)將不能對(duì)此入侵行為做出任何反應(yīng),從而造成漏報(bào)。由此可見,用于訓(xùn)練的數(shù)據(jù)必須不包含任何入侵,并且要格式化成數(shù)據(jù)挖掘算法可以處理的形式。


  數(shù)據(jù)挖掘從預(yù)處理過的數(shù)據(jù)中提取用戶行為特征或規(guī)則等,再對(duì)所得的規(guī)則進(jìn)行歸并更新,建立起規(guī)則庫。


  入侵檢測(cè)依據(jù)規(guī)則庫的規(guī)則對(duì)當(dāng)前用戶的行為進(jìn)行檢測(cè),根據(jù)得到的結(jié)果采取不同的應(yīng)付手段。


  本文構(gòu)建了一個(gè)基于數(shù)據(jù)挖掘關(guān)聯(lián)分析方法的入侵檢測(cè)系統(tǒng),該系統(tǒng)主要用于異常檢測(cè)。



  該系統(tǒng)的數(shù)據(jù)來源是基于網(wǎng)絡(luò)的,通過在網(wǎng)絡(luò)中安放嗅探器來獲取用戶的數(shù)據(jù)包,然后采用協(xié)議分析的方法,丟棄有效負(fù)荷,僅保留包頭部分,按特定的方法預(yù)處理后得到的數(shù)據(jù)包含7個(gè)字段:時(shí)間、源IP、源端口、目的IP、目的端口、連接的ID、連接狀態(tài)。


  由于TCP的連接建立包含3次握手過程,所以在所有收集的訓(xùn)練數(shù)據(jù)中會(huì)包括一些未能成功建立的連接,它們將對(duì)后面的數(shù)據(jù)挖掘過程產(chǎn)生負(fù)面影響,故應(yīng)當(dāng)去掉,僅保留那些反映網(wǎng)絡(luò)正常情況的數(shù)據(jù)。對(duì)于UDP則不存在此問題,只需將每個(gè)UDP包都視為一次連接即可。
  采用APRIORI算法[3]對(duì)數(shù)據(jù)進(jìn)行挖掘。


APRIORI算法常用在購(gòu)物籃分析中,它用于發(fā)現(xiàn)“90%的客戶在購(gòu)買商品A時(shí)也會(huì)購(gòu)買商品B”之類的規(guī)則。它通常的輸入分為兩列:





  規(guī)則輸出的形式為I1&12aI5(support=2%,confidence=60%)。其中support是支持度,confidence是可信度。


  將前面收集到的網(wǎng)絡(luò)流量數(shù)據(jù)格式化成為APRIORI算法的輸入形式,用連接ID代替客戶ID,其他屬性替代購(gòu)買的商品。在給定了支持度和可信度之后,可以得到一組規(guī)則,形式為


  192.168.0.50&202.117.80.8a80(support=6%,confidence=95%)


  規(guī)則的含義為源IP為192.168.0.50且目的IP為202.117.80.8則目的端口是80,該規(guī)則的支持度為6%,可信度為95%。


  一段時(shí)間的采樣不能夠完全代表用戶的行為,因此有必要多次采樣,并重復(fù)上述過程,然后用歸并的方法將多次得到的規(guī)則集合并起來,直至不再產(chǎn)生新的規(guī)則為止。筆者采用此方法從大量的網(wǎng)絡(luò)流量數(shù)據(jù)(28.8M)中可以提取出100多條規(guī)則(支持度2%,可信度85%),發(fā)現(xiàn)其中有很多是明顯無意義的,這就需要管理員通過個(gè)人經(jīng)驗(yàn)加以精簡(jiǎn),最終得到可以用于檢驗(yàn)的規(guī)則集。至此,產(chǎn)生的規(guī)則集已經(jīng)可以比較完整地描述用戶的行為特征了。將得出的規(guī)則集用于入侵檢測(cè)。例如,規(guī)則庫中的一條規(guī)則為


  192.168.0.50&202.117.80.8a80(support=6%,confidence=95%)


  而在檢測(cè)的過程中發(fā)現(xiàn)網(wǎng)絡(luò)數(shù)據(jù)中的一個(gè)連接源IP地址是192.168.0.50且目的IP地址為202.117.80.8,訪問的端口為1000,則說明違反規(guī)則的小概率事件發(fā)生,該連接的可疑度隨之增加。在實(shí)際過程中,來自同一IP地址的異常的連接可能會(huì)違反多條規(guī)則,當(dāng)多個(gè)可疑度之和超過一個(gè)閾值時(shí)系統(tǒng)就產(chǎn)生報(bào)警。


  采用了兩組數(shù)據(jù)(實(shí)驗(yàn)數(shù)據(jù)來源于http:∥iris.
cs.uml.edu:8080/)對(duì)此系統(tǒng)進(jìn)行了實(shí)驗(yàn)。一組是已知不含任何攻擊的正常數(shù)據(jù)(約30M,包含35萬余條記錄),該數(shù)據(jù)用于訓(xùn)練系統(tǒng),采用以上介紹的方法,在設(shè)定支持度為1%,可信度為85%情況下,得到了17條檢驗(yàn)規(guī)則。然后將得到的規(guī)則用于檢測(cè)另一組已知包含攻擊的數(shù)據(jù)(約54M,包含63萬條記錄),實(shí)驗(yàn)結(jié)果證明此方法可以有效的發(fā)現(xiàn)PROBING攻擊。


3 結(jié)束語


  隨著網(wǎng)絡(luò)的帶寬迅速增長(zhǎng),黑客攻擊手段的日趨多樣,現(xiàn)有的入侵檢測(cè)系統(tǒng)在網(wǎng)絡(luò)遭受入侵時(shí),反應(yīng)較慢,實(shí)時(shí)性較差。因此,如何實(shí)時(shí)的處理網(wǎng)絡(luò)中海量的數(shù)據(jù),并及時(shí)的發(fā)現(xiàn)攻擊將成為入侵檢測(cè)系統(tǒng)下一步研究的重點(diǎn)。



參考文獻(xiàn)




[1] Lee W.A Data Mining Framework for Constructing Features and Models for Intrusion Detection System:[PhDthesis].New York:Columbia University,1999,22~26.http:∥www.cs.columbia.edu/~wenke/


[2] Lee W,Stolfo S J.Data Mining Approaches for Intrusion Detection.In:Proceedings of the 7th USENIX SecuritySymposium,San Antonio:1998,6~9.http:∥www.cs.columbia.edu/~wenke/


[3] Han Jiawei,Kamber M著,范 明,孟小峰等譯.?dāng)?shù)據(jù)挖掘概念與技術(shù).北京:機(jī)械工業(yè)出版社,2001.147~158



摘自 西北工業(yè)大學(xué)學(xué)報(bào)
   

微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

      最新招聘信息