——落實集團“大起底大排查大整治”專項工作、提升運維“數(shù)智化”水平
近日,江蘇移動基于與華為聯(lián)合的智能容災方案成功完成首次X百萬級SA用戶容災應急演練,通過可靠的5G SA大區(qū)網(wǎng)絡容災應急體系,保障5G SA業(yè)務的平穩(wěn)運行。
本次演練運用了首次上線的智能容災方案,在容災故障事件識別、容災仿真評估及容災過程可視等環(huán)節(jié),從準確性、便利性及業(yè)務可視等方面極大地提升了容災作業(yè)的“數(shù)智化”水平,標志著江蘇移動智能化運維水平再上新臺階。
▲ 智能容方案-容災值守看板(用戶即將完成全量倒換遷移)
——大區(qū)容災中的關鍵挑戰(zhàn)
容災是核心網(wǎng)運維非常重要的業(yè)務;钍侄危趯崿F(xiàn)大區(qū)云化核心網(wǎng)建設后猶顯重要,而現(xiàn)網(wǎng)實際容災操作中面臨諸多困難及挑戰(zhàn),主要體現(xiàn)在:
1、 容災入口難判斷:在什么場景需要觸發(fā)容災操作,對于云化大區(qū)制網(wǎng)絡,需要判斷所發(fā)生的故障對應8級故障場景中哪一級,又屬于哪一類容災場景,以便快速確定啟用哪一種容災手段來保全業(yè)務,這需要綜合分析現(xiàn)網(wǎng)告警、KPI、投訴、日志等多維數(shù)據(jù),并結合專家運維經(jīng)驗以給出準確判斷。
2、 容災可行性難評估:大區(qū)制建設后核心網(wǎng)網(wǎng)元承載用戶數(shù)多、業(yè)務流量大,在執(zhí)行容災倒換前需要準確評估目標網(wǎng)元是否具備接管故障網(wǎng)元業(yè)務的條件、容災操作是否會對用戶/業(yè)務帶來影響及影響有多大,必須收集大量數(shù)據(jù),并對組網(wǎng)和網(wǎng)元有深刻理解,同時由專業(yè)能力過硬的專家進行評估,方可作出正確的可行性評估預判。
3、 容災過程無實時監(jiān)控:大區(qū)網(wǎng)絡核心網(wǎng)承載業(yè)務量大,容災業(yè)務遷移往往需要一定周期,業(yè)務的恢復情況無直觀的手段可實時呈現(xiàn),往往需要運維人員通過后臺查詢統(tǒng)計的方式獲取,時效性和效率都存在一定問題,同時也不直觀。
容災作為核心網(wǎng)日常運維及后期重大故障出現(xiàn)時的;钍侄,需要運用自動化和智能化的手段來提高容災作業(yè)水平。
——核心網(wǎng)5GC智能容災方案具備的關鍵能力
江蘇移動攜手華為成立專項研究小組,就構建5GC智能容災能力展開深入探討,形成了適配大區(qū)云化核心網(wǎng)絡的智能容災方案關鍵能力。
1、 容災事件識別:基于匯聚告警、日志、性能數(shù)據(jù)等故障信息,結合智能分析系統(tǒng)快速生產(chǎn)容災事件,并自動適配已定義的容災場景。
2、 容災仿真評估:通過對容災對端網(wǎng)元、資源池進行靜態(tài)數(shù)據(jù)及配置檢查,模擬容災倒換行為,仿真5GC核心網(wǎng)各節(jié)點的流量沖擊情況,調(diào)整相關流控策略,評估業(yè)務恢復所需時間。
3、 容災過程可視:通過容災看板實現(xiàn)倒換過程可視化監(jiān)控,實時呈現(xiàn)倒換進展及KPI指標,及時識別異;蝻L險。
a) 分鐘級呈現(xiàn)業(yè)務遷移進度關鍵KPI指標。
b) 實時呈現(xiàn)目標網(wǎng)元業(yè)務性能指標。
c) 實時關聯(lián)呈現(xiàn)目標網(wǎng)元活動告警。
——江蘇移動智能容災方案在容災演練中的關鍵領先點
1、 智能容災系統(tǒng)在容災故障發(fā)生2分鐘內(nèi)識別并生成正確的容災事件,觸發(fā)評估仿真。
2、 10分鐘內(nèi)完成容災評估仿真,業(yè)務恢復仿真曲線與實際業(yè)務恢復曲線基本一致。
3、 整個容災過程中,用戶上線全流程實時可視。
本次演練活動,是江蘇移動智能容災方案上線后的首次生產(chǎn)演練,充分驗證了在大區(qū)云核心網(wǎng)智能容災方面的能力,也標志著江蘇移動正式邁入云化網(wǎng)絡數(shù)智化運維運維新時代。未來,江蘇移動將繼續(xù)攜手生態(tài)伙伴持續(xù)增強大區(qū)網(wǎng)絡運維數(shù)字化能力,持續(xù)當好集團自動駕駛網(wǎng)絡目標實現(xiàn)的排頭兵。