——落實集團“大起底大排查大整治”專項工作、提升運維“數(shù)智化”水平
近日,江蘇移動基于與華為聯(lián)合的智能容災方案成功完成首次X百萬級SA用戶容災應急演練,通過可靠的5G SA大區(qū)網絡容災應急體系,保障5G SA業(yè)務的平穩(wěn)運行。
本次演練運用了首次上線的智能容災方案,在容災故障事件識別、容災仿真評估及容災過程可視等環(huán)節(jié),從準確性、便利性及業(yè)務可視等方面極大地提升了容災作業(yè)的“數(shù)智化”水平,標志著江蘇移動智能化運維水平再上新臺階。
▲ 智能容方案-容災值守看板(用戶即將完成全量倒換遷移)
——大區(qū)容災中的關鍵挑戰(zhàn)
容災是核心網運維非常重要的業(yè)務;钍侄,在實現(xiàn)大區(qū)云化核心網建設后猶顯重要,而現(xiàn)網實際容災操作中面臨諸多困難及挑戰(zhàn),主要體現(xiàn)在:
1、 容災入口難判斷:在什么場景需要觸發(fā)容災操作,對于云化大區(qū)制網絡,需要判斷所發(fā)生的故障對應8級故障場景中哪一級,又屬于哪一類容災場景,以便快速確定啟用哪一種容災手段來保全業(yè)務,這需要綜合分析現(xiàn)網告警、KPI、投訴、日志等多維數(shù)據,并結合專家運維經驗以給出準確判斷。
2、 容災可行性難評估:大區(qū)制建設后核心網網元承載用戶數(shù)多、業(yè)務流量大,在執(zhí)行容災倒換前需要準確評估目標網元是否具備接管故障網元業(yè)務的條件、容災操作是否會對用戶/業(yè)務帶來影響及影響有多大,必須收集大量數(shù)據,并對組網和網元有深刻理解,同時由專業(yè)能力過硬的專家進行評估,方可作出正確的可行性評估預判。
3、 容災過程無實時監(jiān)控:大區(qū)網絡核心網承載業(yè)務量大,容災業(yè)務遷移往往需要一定周期,業(yè)務的恢復情況無直觀的手段可實時呈現(xiàn),往往需要運維人員通過后臺查詢統(tǒng)計的方式獲取,時效性和效率都存在一定問題,同時也不直觀。
容災作為核心網日常運維及后期重大故障出現(xiàn)時的;钍侄,需要運用自動化和智能化的手段來提高容災作業(yè)水平。
——核心網5GC智能容災方案具備的關鍵能力
江蘇移動攜手華為成立專項研究小組,就構建5GC智能容災能力展開深入探討,形成了適配大區(qū)云化核心網絡的智能容災方案關鍵能力。
1、 容災事件識別:基于匯聚告警、日志、性能數(shù)據等故障信息,結合智能分析系統(tǒng)快速生產容災事件,并自動適配已定義的容災場景。
2、 容災仿真評估:通過對容災對端網元、資源池進行靜態(tài)數(shù)據及配置檢查,模擬容災倒換行為,仿真5GC核心網各節(jié)點的流量沖擊情況,調整相關流控策略,評估業(yè)務恢復所需時間。
3、 容災過程可視:通過容災看板實現(xiàn)倒換過程可視化監(jiān)控,實時呈現(xiàn)倒換進展及KPI指標,及時識別異;蝻L險。
a) 分鐘級呈現(xiàn)業(yè)務遷移進度關鍵KPI指標。
b) 實時呈現(xiàn)目標網元業(yè)務性能指標。
c) 實時關聯(lián)呈現(xiàn)目標網元活動告警。
——江蘇移動智能容災方案在容災演練中的關鍵領先點
1、 智能容災系統(tǒng)在容災故障發(fā)生2分鐘內識別并生成正確的容災事件,觸發(fā)評估仿真。
2、 10分鐘內完成容災評估仿真,業(yè)務恢復仿真曲線與實際業(yè)務恢復曲線基本一致。
3、 整個容災過程中,用戶上線全流程實時可視。
本次演練活動,是江蘇移動智能容災方案上線后的首次生產演練,充分驗證了在大區(qū)云核心網智能容災方面的能力,也標志著江蘇移動正式邁入云化網絡數(shù)智化運維運維新時代。未來,江蘇移動將繼續(xù)攜手生態(tài)伙伴持續(xù)增強大區(qū)網絡運維數(shù)字化能力,持續(xù)當好集團自動駕駛網絡目標實現(xiàn)的排頭兵。