MSCBSC 移動通信論壇
搜索
登錄注冊
網(wǎng)絡(luò)優(yōu)化工程師招聘專欄 4G/LTE通信工程師最新職位列表 通信實習(xí)生/應(yīng)屆生招聘職位

  • 閱讀:2744
  • 回復(fù):0
案例——關(guān)于SR2036589 BSC3自動重啟故障的處理分析報告
lovexxman
資深元老
鎵嬫満鍙風(fēng)爜宸查獙璇? style=


 發(fā)短消息    關(guān)注Ta 

公益·慈善勛章  
積分 42199
帖子 719
威望 408452 個
禮品券 115 個
專家指數(shù) 171
注冊 2006-12-2
專業(yè)方向  無線
回答問題數(shù) 0
回答被采納數(shù) 0
回答采納率 0%
 
發(fā)表于 2009-01-03 09:26:50  只看樓主 

關(guān)于SR2036589 BSC3自動重啟故障的處理分析報告



故障現(xiàn)象描述:

2005742334分,舟山BSC3自動重啟,于2338分系統(tǒng)恢復(fù)。在此故障發(fā)生之前,CAGE2內(nèi)的所有MSI板退服,GRPOC16轉(zhuǎn)為D_UGPROC12發(fā)生not on LAN 問題,KSW 2 1轉(zhuǎn)為D_ULAN 1的狀態(tài)也曾經(jīng)發(fā)生過改變。


故障原因分析:


系統(tǒng)發(fā)生重啟前,CAGE2的兩塊KSW板先后退服,TBUS 2 1TBUS 2 0變?yōu)?/font>D_U,造成CAGE2中無可用的TDM,BSP 0 0報出[39]
Software Failure
的告警,系統(tǒng)最終通過重啟來嘗試解決CAGE2中的問題。


stateChangeEvent
-
KSW
-
BSC03(BSC03:SITE-0: 0 KSW 2 1
-
04/07/2005
22:33:08.


From : (Enabled, Unlocked)
-
NO REASON.


To : (Disabled, Unlocked)
-
NO REASON.


Config Tag 80011c – 1



stateChangeEvent
-
KSW
-
BSC03(BSC03:SITE-0: 0 KSW 2 0
-
04/07/2005
23:33:19.


From : (Busy, Unlocked)
-
NO REASON.


To : (Disabled, Unlocked)
-
NO REASON.


Config Tag 80012c – 1



stateChangeEvent
-
TBUS
-
BSC03(BSC03:SITE-0: 0 TBUS 2 1
-
04/07/2005
22:33:08.


From : (Enabled, Unlocked)
-
NO REASON.


To : (Disabled, Unlocked)
-
Parent OOS.


Config Tag 80011c – 2



stateChangeEvent
-
TBUS
-
BSC03(BSC03:SITE-0:): 0 TBUS 2 0
-
04/07/2005
23:33:19.


From : (Busy, Unlocked)
-
NO REASON.


To : (Disabled, Unlocked)
-
Parent OOS.


Config Tag 80012c - 2


processingFailureEvent
-
BSP-GPROC2
-
BSC03(BSC03:SITE-0:): 0 BSP-GPROC2 0
-
04/07/2005
23:33:39.


[39]
Software Failure
-
FMIC
-
Critical 0/20.



HW Version 3h


PID: 0x42
PC: 0xC003F4F4
MODULE: init_sm.c RESET TYPE: RESET_SELF_SOFT.



linkFailureEvent
-
BSS
-
BSC03(BSC03:SITE-0:): 0 SITE
-
04/07/2005
23:34:30.


[30003] x25CircuitDown
-
FMIC
-
Critical



分析SWFM后,發(fā)現(xiàn)此次重啟是由BSP 0 0發(fā)起,在0215、03130314上有相關(guān)信息報出。

4813 FATAL SWFM ERROR: SOFT RESET
Routine: global_kill

4813 Area: 0x0000004b Error: 0x00000021 PC: 0xc0001064 PID: 0x50 (Init)
4813 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
4813 04-Jul-2005 23:33:48.375 Subsystem: 0x01 CPU: 0x0115 Board: GPROC2 RAM
4813 Global Kill message received by IP from process 4b


0 FATAL SWFM ERROR: SOFT RESET
Routine: local_kill


0 Area: 0x0000004b Error: 0x00000021 PC: 0xc00016e6 PID: 0x50 (Init)


0 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27


0 04-Jul-2005 23:33:43.680 Subsystem: 0x01 CPU: 0x0215 Board: GPROC2 RAM


0 Local Kill message received by IP by Process 80 CPU x115 Subsystem 1



4 FATAL SWFM ERROR: SOFT RESET
Routine: local_kill


4 Area: 0x0000004b Error: 0x00000021 PC: 0xc00016e6 PID: 0x50 (Init)


4 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27


4 04-Jul-2005 23:33:43.675 Subsystem: 0x01 CPU: 0x0313 Board: GPROC2 RAM


4 Local Kill message received by IP by Process 80 CPU x115 Subsystem 1



0 FATAL SWFM ERROR: SOFT RESET
Routine: local_kill


0 Area: 0x0000004b Error: 0x00000021 PC: 0xc00016e6 PID: 0x50 (Init)


0 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27


0 04-Jul-2005 23:33:43.675 Subsystem: 0x01 CPU: 0x0314 Board: GPROC2 RAM


0 Local Kill message received by IP by Process 80 CPU x115 Subsystem 1



在系統(tǒng)重啟前,看到一條CA進(jìn)程的的SWFM,它指出此時系統(tǒng)發(fā)現(xiàn)在KSWPAIR2上已經(jīng)沒有可用的KSW,并試圖將此時為E_U狀態(tài)的KSW 2 0轉(zhuǎn)為B_U,但最終失敗,系統(tǒng)于12秒鐘后發(fā)起重啟。

4812 FATAL SWFM ERROR: SOFT RESET
Routine: init_sm.c

4812 Area: 0x00000300 Error: 0x00000011 PC: 0xc003f4f4 PID: 0x42 (CA)
4812 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
4812 04-Jul-2005 23:33:36.860 Subsystem: 0x01 CPU: 0x0115 Board: GPROC2 RAM
4812 CA error, Line = 137, thread = 60, Config Tag = 0x0080012c
4812 ENABLE of Entity = KSW[2,0,0], State = ENABLED UNLOCKED NO REASON
4812 Standby KSW found without an Active one: ksw pair [2]

下面對導(dǎo)致CAGE2內(nèi)兩塊KSW板先后退服的原因進(jìn)行分析。
2231分,LAN 1出現(xiàn)告警,隨后由E_U轉(zhuǎn)為D_U。GPROC16在兩分鐘后出現(xiàn)232Processor Bus Communication Failure
告警,GRPOC12出現(xiàn)35LAN Connection Failure
告警,KSW 2 1也由E_U轉(zhuǎn)為D_U,KSW 2 0 出現(xiàn)224Safe Test Audit Failure
告警。以上四塊全尺寸板都位于CAGE2內(nèi),它們通過MCAP總線進(jìn)行通信,而LANX板是構(gòu)成MCAP總線的重要部分,LANX板的故障對本CAGE內(nèi)所有全尺寸板的正常通信構(gòu)成影響。


equipmentFailureEvent
-
LAN
-
BSC03(BSC03:SITE-0:): 0 LAN 1
-
04/07/2005
22:31:41.


[1]
LAN Failure
-
FMIC
-
Critical -/-.


Config Tag 179


stateChangeEvent
-
LAN
-
BSC03(BSC03:SITE-0:): 0 LAN 1
-
04/07/2005
22:31:41.


From : (Enabled, Unlocked)
-
NO REASON.


To : (Disabled, Unlocked)
-
NO REASON.


Config Tag 179 - 1



equipmentFailureEvent
-
GPROC-GPROC2
-
BSC03(BSC03:SITE-0:): 0 GPROC-GPROC2 16
-
04/07/2005
22:33:07.


[232]
Processor Bus Communication Failure
-
FMIC
-
Critical 2/18.


LCF 12.


HW Version 7h


Config Tag 80011c




communicationFailureEvent
-
GPROC-GPROC2
-
BSC03(BSC03:SITE-0:): 0 GPROC-GPROC2 12
-
04/07/2005
22:33:16.


[35]
LAN Connection Failure
-
FMIC
-
Major 2/19.


LCF 9.


HW Version 7h


Config Tag 800120


stateChangeEvent
-
KSW
-
BSC03(BSC03:SITE-0:): 0 KSW 2 1
-
04/07/2005
22:33:08.


From : (Enabled, Unlocked)
-
NO REASON.


To : (Disabled, Unlocked)
-
NO REASON.


Config Tag 80011c – 1



communicationFailureEvent
-
KSW-KSW
-
BSC03(BSC03:SITE-0:): 0 KSW-KSW 2 0
-
04/07/2005
23:33:19.


[224]
Safe Test Audit Failure
-
FMIC
-
Critical 2/27.


HW Version 5h


Config Tag 80012c





結(jié)論:


BSC3自動重啟的直接原因是由于CAGE2內(nèi)的KSW 2 0 KSW 2 1先后退服,造成CAGE2內(nèi)無可用的TDM。
但導(dǎo)致CAGE2內(nèi)兩塊KSW相繼退服真正原因是LAN1的故障。通過分析,將此故障定位在CAGE2內(nèi)的B側(cè)LANX上,建議對這塊LANX板盡快予以更換。




摩托羅拉電信運(yùn)營方案部亞洲客戶支持中心

                    200776
掃碼關(guān)注5G通信官方公眾號,免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5G NTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1
  • 對本帖內(nèi)容的看法? 我要點(diǎn)評

     
    [充值威望,立即自動到帳] [VIP貴賓權(quán)限+威望套餐] 另有大量優(yōu)惠贈送活動,請光臨充值中心
    充值擁有大量的威望和最高的下載權(quán)限,下載站內(nèi)資料無憂

    快速回復(fù)主題    
    標(biāo)題
    內(nèi)容
     上傳資料請點(diǎn)左側(cè)【添加附件】

    當(dāng)前時區(qū) GMT+8, 現(xiàn)在時間是 2025-02-24 05:53:32
    渝ICP備11001752號  Copyright @ 2006-2016 mscbsc.com  本站統(tǒng)一服務(wù)郵箱:mscbsc@163.com

    Processed in 0.486786 second(s), 14 queries , Gzip enabled
    TOP
    清除 Cookies - 聯(lián)系我們 - 移動通信網(wǎng) - 移動通信論壇 - 通信招聘網(wǎng) - Archiver