——落實集團“大起底大排查大整治”專項工作、提升運維“數(shù)智化”水平
近日,江蘇移動基于與華為聯(lián)合的智能容災(zāi)方案成功完成首次X百萬級SA用戶容災(zāi)應(yīng)急演練,通過可靠的5G SA大區(qū)網(wǎng)絡(luò)容災(zāi)應(yīng)急體系,保障5G SA業(yè)務(wù)的平穩(wěn)運行。
本次演練運用了首次上線的智能容災(zāi)方案,在容災(zāi)故障事件識別、容災(zāi)仿真評估及容災(zāi)過程可視等環(huán)節(jié),從準(zhǔn)確性、便利性及業(yè)務(wù)可視等方面極大地提升了容災(zāi)作業(yè)的“數(shù)智化”水平,標(biāo)志著江蘇移動智能化運維水平再上新臺階。
▲ 智能容方案-容災(zāi)值守看板(用戶即將完成全量倒換遷移)
——大區(qū)容災(zāi)中的關(guān)鍵挑戰(zhàn)
容災(zāi)是核心網(wǎng)運維非常重要的業(yè)務(wù)保活手段,在實現(xiàn)大區(qū)云化核心網(wǎng)建設(shè)后猶顯重要,而現(xiàn)網(wǎng)實際容災(zāi)操作中面臨諸多困難及挑戰(zhàn),主要體現(xiàn)在:
1、 容災(zāi)入口難判斷:在什么場景需要觸發(fā)容災(zāi)操作,對于云化大區(qū)制網(wǎng)絡(luò),需要判斷所發(fā)生的故障對應(yīng)8級故障場景中哪一級,又屬于哪一類容災(zāi)場景,以便快速確定啟用哪一種容災(zāi)手段來保全業(yè)務(wù),這需要綜合分析現(xiàn)網(wǎng)告警、KPI、投訴、日志等多維數(shù)據(jù),并結(jié)合專家運維經(jīng)驗以給出準(zhǔn)確判斷。
2、 容災(zāi)可行性難評估:大區(qū)制建設(shè)后核心網(wǎng)網(wǎng)元承載用戶數(shù)多、業(yè)務(wù)流量大,在執(zhí)行容災(zāi)倒換前需要準(zhǔn)確評估目標(biāo)網(wǎng)元是否具備接管故障網(wǎng)元業(yè)務(wù)的條件、容災(zāi)操作是否會對用戶/業(yè)務(wù)帶來影響及影響有多大,必須收集大量數(shù)據(jù),并對組網(wǎng)和網(wǎng)元有深刻理解,同時由專業(yè)能力過硬的專家進行評估,方可作出正確的可行性評估預(yù)判。
3、 容災(zāi)過程無實時監(jiān)控:大區(qū)網(wǎng)絡(luò)核心網(wǎng)承載業(yè)務(wù)量大,容災(zāi)業(yè)務(wù)遷移往往需要一定周期,業(yè)務(wù)的恢復(fù)情況無直觀的手段可實時呈現(xiàn),往往需要運維人員通過后臺查詢統(tǒng)計的方式獲取,時效性和效率都存在一定問題,同時也不直觀。
容災(zāi)作為核心網(wǎng)日常運維及后期重大故障出現(xiàn)時的;钍侄,需要運用自動化和智能化的手段來提高容災(zāi)作業(yè)水平。
——核心網(wǎng)5GC智能容災(zāi)方案具備的關(guān)鍵能力
江蘇移動攜手華為成立專項研究小組,就構(gòu)建5GC智能容災(zāi)能力展開深入探討,形成了適配大區(qū)云化核心網(wǎng)絡(luò)的智能容災(zāi)方案關(guān)鍵能力。
1、 容災(zāi)事件識別:基于匯聚告警、日志、性能數(shù)據(jù)等故障信息,結(jié)合智能分析系統(tǒng)快速生產(chǎn)容災(zāi)事件,并自動適配已定義的容災(zāi)場景。
2、 容災(zāi)仿真評估:通過對容災(zāi)對端網(wǎng)元、資源池進行靜態(tài)數(shù)據(jù)及配置檢查,模擬容災(zāi)倒換行為,仿真5GC核心網(wǎng)各節(jié)點的流量沖擊情況,調(diào)整相關(guān)流控策略,評估業(yè)務(wù)恢復(fù)所需時間。
3、 容災(zāi)過程可視:通過容災(zāi)看板實現(xiàn)倒換過程可視化監(jiān)控,實時呈現(xiàn)倒換進展及KPI指標(biāo),及時識別異;蝻L(fēng)險。
a) 分鐘級呈現(xiàn)業(yè)務(wù)遷移進度關(guān)鍵KPI指標(biāo)。
b) 實時呈現(xiàn)目標(biāo)網(wǎng)元業(yè)務(wù)性能指標(biāo)。
c) 實時關(guān)聯(lián)呈現(xiàn)目標(biāo)網(wǎng)元活動告警。
——江蘇移動智能容災(zāi)方案在容災(zāi)演練中的關(guān)鍵領(lǐng)先點
1、 智能容災(zāi)系統(tǒng)在容災(zāi)故障發(fā)生2分鐘內(nèi)識別并生成正確的容災(zāi)事件,觸發(fā)評估仿真。
2、 10分鐘內(nèi)完成容災(zāi)評估仿真,業(yè)務(wù)恢復(fù)仿真曲線與實際業(yè)務(wù)恢復(fù)曲線基本一致。
3、 整個容災(zāi)過程中,用戶上線全流程實時可視。
本次演練活動,是江蘇移動智能容災(zāi)方案上線后的首次生產(chǎn)演練,充分驗證了在大區(qū)云核心網(wǎng)智能容災(zāi)方面的能力,也標(biāo)志著江蘇移動正式邁入云化網(wǎng)絡(luò)數(shù)智化運維運維新時代。未來,江蘇移動將繼續(xù)攜手生態(tài)伙伴持續(xù)增強大區(qū)網(wǎng)絡(luò)運維數(shù)字化能力,持續(xù)當(dāng)好集團自動駕駛網(wǎng)絡(luò)目標(biāo)實現(xiàn)的排頭兵。