lovexxman
資深元老
發(fā)短消息
關(guān)注Ta
積分 42199
帖子 719
威望 408452 個
禮品券 115 個
專家指數(shù) 171
注冊 2006-12-2 專業(yè)方向
無線
回答問題數(shù) 0
回答被采納數(shù) 0
回答采納率 0%
|
大
中
小
發(fā)表于 2009-01-03 09:26:50
只看樓主
|
關(guān)于SR2036589 BSC3自動重啟故障的處理分析報告

故障現(xiàn)象描述:
2005年7月4日23時34分,舟山BSC3自動重啟,于23時38分系統(tǒng)恢復(fù)。在此故障發(fā)生之前,CAGE2內(nèi)的所有MSI板退服,GRPOC16轉(zhuǎn)為D_U,GPROC12發(fā)生not on LAN 問題,KSW 2 1轉(zhuǎn)為D_U,LAN 1的狀態(tài)也曾經(jīng)發(fā)生過改變。

故障原因分析:
系統(tǒng)發(fā)生重啟前,CAGE2的兩塊KSW板先后退服,TBUS 2 1和TBUS 2 0變?yōu)?/font>D_U,造成CAGE2中無可用的TDM,BSP 0 0報出[39]
Software Failure
的告警,系統(tǒng)最終通過重啟來嘗試解決CAGE2中的問題。
stateChangeEvent
-
KSW
-
BSC03(BSC03:SITE-0 : 0 KSW 2 1
-
04/07/2005
22:33:08.
From : (Enabled, Unlocked)
-
NO REASON.
To : (Disabled, Unlocked)
-
NO REASON.
Config Tag 80011c – 1
stateChangeEvent
-
KSW
-
BSC03(BSC03:SITE-0 : 0 KSW 2 0
-
04/07/2005
23:33:19.
From : (Busy, Unlocked)
-
NO REASON.
To : (Disabled, Unlocked)
-
NO REASON.
Config Tag 80012c – 1
stateChangeEvent
-
TBUS
-
BSC03(BSC03:SITE-0 : 0 TBUS 2 1
-
04/07/2005
22:33:08.
From : (Enabled, Unlocked)
-
NO REASON.
To : (Disabled, Unlocked)
-
Parent OOS.
Config Tag 80011c – 2
stateChangeEvent
-
TBUS
-
BSC03(BSC03:SITE-0:): 0 TBUS 2 0
-
04/07/2005
23:33:19.
From : (Busy, Unlocked)
-
NO REASON.
To : (Disabled, Unlocked)
-
Parent OOS.
Config Tag 80012c - 2
processingFailureEvent
-
BSP-GPROC2
-
BSC03(BSC03:SITE-0:): 0 BSP-GPROC2 0
-
04/07/2005
23:33:39.
[39]
Software Failure
-
FMIC
-
Critical 0/20.
HW Version 3h
PID: 0x42
PC: 0xC003F4F4
MODULE: init_sm.c RESET TYPE: RESET_SELF_SOFT.
linkFailureEvent
-
BSS
-
BSC03(BSC03:SITE-0:): 0 SITE
-
04/07/2005
23:34:30.
[30003] x25CircuitDown
-
FMIC
-
Critical
分析SWFM后,發(fā)現(xiàn)此次重啟是由BSP 0 0發(fā)起,在0215、0313及0314上有相關(guān)信息報出。
4813 FATAL SWFM ERROR: SOFT RESET
Routine: global_kill
4813 Area: 0x0000004b Error: 0x00000021 PC: 0xc0001064 PID: 0x50 (Init)
4813 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
4813 04-Jul-2005 23:33:48.375 Subsystem: 0x01 CPU: 0x0115 Board: GPROC2 RAM
4813 Global Kill message received by IP from process 4b
0 FATAL SWFM ERROR: SOFT RESET
Routine: local_kill
0 Area: 0x0000004b Error: 0x00000021 PC: 0xc00016e6 PID: 0x50 (Init)
0 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
0 04-Jul-2005 23:33:43.680 Subsystem: 0x01 CPU: 0x0215 Board: GPROC2 RAM
0 Local Kill message received by IP by Process 80 CPU x115 Subsystem 1
4 FATAL SWFM ERROR: SOFT RESET
Routine: local_kill
4 Area: 0x0000004b Error: 0x00000021 PC: 0xc00016e6 PID: 0x50 (Init)
4 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
4 04-Jul-2005 23:33:43.675 Subsystem: 0x01 CPU: 0x0313 Board: GPROC2 RAM
4 Local Kill message received by IP by Process 80 CPU x115 Subsystem 1
0 FATAL SWFM ERROR: SOFT RESET
Routine: local_kill
0 Area: 0x0000004b Error: 0x00000021 PC: 0xc00016e6 PID: 0x50 (Init)
0 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
0 04-Jul-2005 23:33:43.675 Subsystem: 0x01 CPU: 0x0314 Board: GPROC2 RAM
0 Local Kill message received by IP by Process 80 CPU x115 Subsystem 1
在系統(tǒng)重啟前,看到一條CA進(jìn)程的的SWFM,它指出此時系統(tǒng)發(fā)現(xiàn)在KSW的PAIR2上已經(jīng)沒有可用的KSW,并試圖將此時為E_U狀態(tài)的KSW 2 0轉(zhuǎn)為B_U,但最終失敗,系統(tǒng)于12秒鐘后發(fā)起重啟。
4812 FATAL SWFM ERROR: SOFT RESET
Routine: init_sm.c
4812 Area: 0x00000300 Error: 0x00000011 PC: 0xc003f4f4 PID: 0x42 (CA)
4812 BSS Release: 1.6.7.f0.74 Obj Version: 1.6.7.0.27 Exec Version: 1.6.7.0.27
4812 04-Jul-2005 23:33:36.860 Subsystem: 0x01 CPU: 0x0115 Board: GPROC2 RAM
4812 CA error, Line = 137, thread = 60, Config Tag = 0x0080012c
4812 ENABLE of Entity = KSW[2,0,0], State = ENABLED UNLOCKED NO REASON
4812 Standby KSW found without an Active one: ksw pair [2]
下面對導(dǎo)致CAGE2內(nèi)兩塊KSW板先后退服的原因進(jìn)行分析。
在22時31分,LAN 1出現(xiàn)告警,隨后由E_U轉(zhuǎn)為D_U。GPROC16在兩分鐘后出現(xiàn)232號Processor Bus Communication Failure
告警,GRPOC12出現(xiàn)35號LAN Connection Failure
告警,KSW 2 1也由E_U轉(zhuǎn)為D_U,KSW 2 0 出現(xiàn)224號Safe Test Audit Failure
告警。以上四塊全尺寸板都位于CAGE2內(nèi),它們通過MCAP總線進(jìn)行通信,而LANX板是構(gòu)成MCAP總線的重要部分,LANX板的故障對本CAGE內(nèi)所有全尺寸板的正常通信構(gòu)成影響。
equipmentFailureEvent
-
LAN
-
BSC03(BSC03:SITE-0:): 0 LAN 1
-
04/07/2005
22:31:41.
[1]
LAN Failure
-
FMIC
-
Critical -/-.
Config Tag 179
stateChangeEvent
-
LAN
-
BSC03(BSC03:SITE-0:): 0 LAN 1
-
04/07/2005
22:31:41.
From : (Enabled, Unlocked)
-
NO REASON.
To : (Disabled, Unlocked)
-
NO REASON.
Config Tag 179 - 1
equipmentFailureEvent
-
GPROC-GPROC2
-
BSC03(BSC03:SITE-0:): 0 GPROC-GPROC2 16
-
04/07/2005
22:33:07.
[232]
Processor Bus Communication Failure
-
FMIC
-
Critical 2/18.
LCF 12.
HW Version 7h
Config Tag 80011c
communicationFailureEvent
-
GPROC-GPROC2
-
BSC03(BSC03:SITE-0:): 0 GPROC-GPROC2 12
-
04/07/2005
22:33:16.
[35]
LAN Connection Failure
-
FMIC
-
Major 2/19.
LCF 9.
HW Version 7h
Config Tag 800120
stateChangeEvent
-
KSW
-
BSC03(BSC03:SITE-0:): 0 KSW 2 1
-
04/07/2005
22:33:08.
From : (Enabled, Unlocked)
-
NO REASON.
To : (Disabled, Unlocked)
-
NO REASON.
Config Tag 80011c – 1
communicationFailureEvent
-
KSW-KSW
-
BSC03(BSC03:SITE-0:): 0 KSW-KSW 2 0
-
04/07/2005
23:33:19.
[224]
Safe Test Audit Failure
-
FMIC
-
Critical 2/27.
HW Version 5h
Config Tag 80012c

結(jié)論:
BSC3自動重啟的直接原因是由于CAGE2內(nèi)的KSW 2 0 的KSW 2 1先后退服,造成CAGE2內(nèi)無可用的TDM。
但導(dǎo)致CAGE2內(nèi)兩塊KSW相繼退服真正原因是LAN1的故障。通過分析,將此故障定位在CAGE2內(nèi)的B側(cè)LANX上,建議對這塊LANX板盡快予以更換。
摩托羅拉電信運(yùn)營方案部亞洲客戶支持中心 2007年7月6日
掃碼關(guān)注5G通信官方公眾號,免費(fèi)領(lǐng)取以下5G精品資料
1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書》
2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21》
3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書》
4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》》
5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5G NTN技術(shù)白皮書》
6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解》
7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動算力并網(wǎng)白皮書》
8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1》
| |