核心層交換機更換后業(yè)務(wù)為何癱瘓

對于整天與計算機網(wǎng)絡(luò)打交道的網(wǎng)絡(luò)管理員來說,遭遇網(wǎng)絡(luò)故障幾乎成為了家常便飯,而大多部分網(wǎng)絡(luò)故障現(xiàn)象都局限在無法上網(wǎng)、頻繁掉線或者是訪問速度緩慢等。其實引起網(wǎng)絡(luò)故障的原因可謂是繁多,既有人為操作因素引起的,也有網(wǎng)絡(luò)設(shè)備自身狀態(tài)引起的,還有可能是外界干擾引起的;但是在實際解決網(wǎng)絡(luò)故障的過程中,筆者們有時會發(fā)現(xiàn)在排除了上面列出的各種可能因素后,網(wǎng)絡(luò)故障仍然無法消除。下面的一則網(wǎng)絡(luò)故障為核心層交換機主控板更換后,設(shè)備運行正常,但是業(yè)務(wù)并沒有真正的恢復(fù),竟然是上端設(shè)備端口資源沒有釋放所引起。相信各位看完下面的故障排除過程之后,一定會有新的收獲。

故障現(xiàn)象

多個分支機構(gòu)的局域網(wǎng)是通過租用當(dāng)?shù)剡\營商的10M光纖通道直接訪問本地總部企業(yè)網(wǎng),所有本地分支機構(gòu)的網(wǎng)絡(luò)匯聚到核心層交換,核心層交換直接連到路由器。其他的交換機負(fù)責(zé)各個網(wǎng)絡(luò)業(yè)務(wù)的接入,這樣網(wǎng)絡(luò)結(jié)構(gòu)比較簡單明了,實際運行的狀態(tài)也是比較穩(wěn)定的。 前幾天,網(wǎng)絡(luò)突然出現(xiàn)大面積癱瘓故障,并導(dǎo)致企業(yè)業(yè)務(wù)無法正常運轉(zhuǎn)。根據(jù)網(wǎng)絡(luò)拓?fù)浼俺霈F(xiàn)的故障現(xiàn)象,可以迅速地定位到核心層交換設(shè)備出現(xiàn)了問題。到了現(xiàn)場的后,發(fā)現(xiàn)的主控板出現(xiàn)了告警,設(shè)備復(fù)位,告警并沒有消除,可以判斷為主控板損壞,更換新的主控板,設(shè)備運行正常,所有的二層透傳業(yè)務(wù)恢復(fù),但是所有IP業(yè)務(wù)沒有恢復(fù)。

故障排查分析

排查一、物理故障還是邏輯故障?

故障的根源是核心層交換機的主控板出現(xiàn)了問題,這樣網(wǎng)絡(luò)故障的性質(zhì)為物理故障。難道新更換的主控板有問題?但是設(shè)備運行正常,又沒有告警信息。如:show card ,show cpu等,從運行狀態(tài)上看,硬件沒有問題。難道更換設(shè)備后,數(shù)據(jù)丟失了嗎?察看相關(guān)的數(shù)據(jù),發(fā)現(xiàn)并沒有丟失,但是IP業(yè)務(wù)還是不能夠恢復(fù)?可是部分透傳業(yè)務(wù)又沒有問題。究竟那里出現(xiàn)了問題呢?

排查二、DNS服務(wù)出了問題?

經(jīng)過檢查,筆者發(fā)現(xiàn),雖然業(yè)務(wù)不能使用,但所有的路由信息都是正常的,PING所有的網(wǎng)元信息也都是正常的。難道是DNS服務(wù)出了問題?

所謂DNS,即域名服務(wù)器,它把域名轉(zhuǎn)換為計算機能夠識別的IP地址。如網(wǎng)站對應(yīng)的IP是219.218.100.100。如果DNS服務(wù)器出錯,則無法進行域名解釋,自然也就不能上網(wǎng)了。有時候則是路由器的問題,無法與ISP的DNS服務(wù)連接,這時可把路由器關(guān)閉一會再開或是重新設(shè)置路由器即可。還有可能是網(wǎng)卡無法自動搜尋到DNS的服務(wù)器地址,可以嘗試用指定的DNS服務(wù)器地址。進入“控制面板→網(wǎng)絡(luò)和撥號連接”,雙擊“本地連接→屬性→TCP/IP協(xié)議”,在彈出的對話框中選擇“使用下面的DNS服務(wù)器地址”,然后填寫相應(yīng)的DNS服務(wù)器IP地址。經(jīng)過核實后,DNS也沒有問題。

排查三、是中ARP病毒還是有流量攻擊?

故障發(fā)生前期,個別分支機構(gòu)經(jīng)常有人反映說上網(wǎng)時經(jīng)常出現(xiàn)丟包現(xiàn)象,想到最近局域網(wǎng)中經(jīng)常出現(xiàn)的ARP地址欺騙病毒,筆者就向所有相關(guān)的網(wǎng)絡(luò)技術(shù)人員介紹了一下排查各自局域網(wǎng),是否感染了ARP地址欺騙病毒,希望通過找到并解決感染ARP地址欺騙病毒的機器來解決IP業(yè)務(wù)不能恢復(fù)的問題,并沒有查出結(jié)果。難道設(shè)備更換后,所有的路由表丟失了嗎?把前幾天的數(shù)據(jù)備份重新導(dǎo)入后,故障現(xiàn)象的依然存在。為了更快的恢復(fù)業(yè)務(wù),咨詢了設(shè)備廠家的技術(shù)支持,把所有的故障現(xiàn)象反饋給技術(shù)工程師,并查看了所有的告警及系統(tǒng)日志,并沒有發(fā)現(xiàn)可疑的問題。最后得到的結(jié)果是:該設(shè)備運行正常,沒有病毒的攻擊、流量異常等現(xiàn)象。

故障解決

路是通的,說明該設(shè)備沒有問題。網(wǎng)元是通的,DNS又沒有問題,但是業(yè)務(wù)不能夠恢復(fù)。在檢查IP ARP信息時,發(fā)現(xiàn)所有的MAC地址與IP地址都在地址表?匆姽P者使用的IP地址及MAC地址也在表中(如圖)。但筆者的計算機并沒有開!難道核心層與路由器的端口出現(xiàn)了問題?嘗試著,把端口關(guān)閉后,再重新啟用。發(fā)現(xiàn)筆者使用IP地址后,沒有MAC地址。所有的IP業(yè)務(wù)全部恢復(fù)。


   
  故障總結(jié)

雖然故障已經(jīng)被解決了,但讓筆者感到疑惑不解的是:為什么重新啟動端口,業(yè)務(wù)就能夠正常。而出現(xiàn)的故障點不是在路由器上,而是在核心層交換機上。不重新啟動端口,測試的現(xiàn)象的都是正常的。后來咨詢了相關(guān)的技術(shù)人員,故障發(fā)生前,數(shù)據(jù)的流量很大,故障發(fā)生時,很多的數(shù)據(jù)包不能正常轉(zhuǎn)發(fā),端口就會出現(xiàn)假死現(xiàn)象,傳輸?shù)臄?shù)據(jù)流量很小。關(guān)閉后,把多余的數(shù)據(jù)遺棄掉,重新啟動,傳輸正常的數(shù)據(jù)信息。

總結(jié)上面的故障排除過程發(fā)現(xiàn),出現(xiàn)網(wǎng)絡(luò)故障應(yīng)該從正常網(wǎng)絡(luò)中去檢測上段部分網(wǎng)絡(luò)運行情況,來判斷網(wǎng)絡(luò)上段網(wǎng)絡(luò)是否正常,然后,再檢查下段網(wǎng)絡(luò),使用PING命令測試,進行針對性排查。即使發(fā)生的故障點恢復(fù),并不代表業(yè)務(wù)的恢復(fù),思考問題不能局限于局部信息,應(yīng)該從全局思考。并結(jié)合具體的網(wǎng)絡(luò)工作環(huán)境,說不定發(fā)現(xiàn)故障就在疏忽那一瞬間,要認(rèn)真觀察對網(wǎng)絡(luò)有影響因素,可以避免少走一些彎路。作為一名網(wǎng)絡(luò)管理員,除了日常網(wǎng)絡(luò)故障的處理外,還會不時碰到自己知識范圍以外的東西,但只要引起足夠的重視,總會找到解決問題的辦法。

 

   來源:zdnet
微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息