故障現(xiàn)象
某LTE項目在做LTE新建站點X2切換測試時,發(fā)現(xiàn)在觸發(fā)A3事件后,UE上報多次測量報告,卻一直沒有切換命令下發(fā),最終出現(xiàn)切換掉話。
故障分析
UE側(cè)上報多次測量報告后,從eNodeB側(cè)看到在源eNodeB發(fā)起了X2口切換請求消息。過了幾秒后收到切換請求響應(yīng)。最后,目標(biāo)eNodeB沒有收到切換完成消息導(dǎo)致切換失敗。UE重建最終被拒,導(dǎo)致掉話。
1. 從CXT記錄的數(shù)據(jù)以及eNodeB側(cè)的信令記錄可知,在源eNodeB,從發(fā)起X2口切換請求消息,到收到目標(biāo)eNodeB發(fā)送的切換請求響應(yīng),時間間隔將近3秒。對于切換準(zhǔn)備來說,這個響應(yīng)時間太長。通過CXT觀測,在此期間目標(biāo)小區(qū)的RSRP陡降了大約15dB,這直接導(dǎo)致目標(biāo)eNodeB無法收到切換完成消息。同時,可以看到目標(biāo)eNodeB的X2口出現(xiàn)了HANDOVER_CANCEL消息,此時表明切換已經(jīng)失敗。
2. UE在切換失敗后立即發(fā)起重新建鏈請求,從信令看重建已成功。但重建成功后由于UE一直沒有收到SRB2/DRB1的重配置消息,待到RLC最大重傳次數(shù)滿足后即釋放了用戶上下文,這時再發(fā)起重建肯定被拒而造成連接釋放,因為這時eNodeB已沒有了用戶上下文。
HANDOVER_REQUEST消息與HANDOVER_REQUEST_ACKNOWLEDGE消息之間的時間間隔過長是造成切換失敗和掉話的原因,如下圖所示。
故障處理
1. 檢查這兩個eNodeB的硬件是否有告警。
例如:檢查RRU工作狀態(tài)是否正常?是否存在X2鏈路告警?以及小區(qū)是否被閉塞等情況。
檢查結(jié)果:沒有發(fā)現(xiàn)告警信息。
2. 檢查數(shù)據(jù)配置。
例如:檢查本eNodeB的切換門限和遲滯等是否有特殊的配置?以及相應(yīng)的鄰區(qū)是否配置,并且是否配置正確等。
檢查結(jié)果:兩個eNodeB均使用默認(rèn)參數(shù)配置,未發(fā)現(xiàn)數(shù)據(jù)配置問題。
3. 使用UE分別在兩個小區(qū)下做下載業(yè)務(wù),發(fā)現(xiàn)UE在目標(biāo)小區(qū)下吞吐率很差,DUmeter顯示存在裂縫和掉底(速率陡降,但是隨即恢復(fù))。開始懷疑是傳輸存在問題。
4. 使用Ping命令檢查eNodeB到服務(wù)器的時延。
發(fā)現(xiàn)其中一個eNodeB到服務(wù)器的Ping時延很大,并且十分不穩(wěn)定。
5. 在服務(wù)器側(cè)使用Wireshark工具進行抓包分析。
經(jīng)過分析,發(fā)現(xiàn)確實存在該eNodeB到服務(wù)器的回包時延過大的情況。
6. 知會傳輸工程師進行傳輸問題檢查。
傳輸工程師反饋說發(fā)現(xiàn)該站點當(dāng)天確實突發(fā)出現(xiàn)傳輸閃斷問題。
7. 傳輸閃斷問題處理后再次進行相同測試,切換成功。
總結(jié)
在X2切換測試時,如果發(fā)現(xiàn)掉話問題:
1. 首先需要檢查告警和數(shù)據(jù)配置。確保硬件無告警,數(shù)據(jù)配置正常。
2. 其次做信令分析。不單是看信令的流程是否正常,小區(qū)信號質(zhì)量是否正常,關(guān)鍵要看各信令點的信令到達時間。如果信令到達時間不正常,那么很有可能是傳輸存在問題。
3. 這時候可以再進行傳輸抓包分析確認(rèn)。最后定位問題原因,解決問題。