——落實(shí)集團(tuán)“大起底大排查大整治”專(zhuān)項(xiàng)工作、提升運(yùn)維“數(shù)智化”水平
近日,江蘇移動(dòng)基于與華為聯(lián)合的智能容災(zāi)方案成功完成首次X百萬(wàn)級(jí)SA用戶(hù)容災(zāi)應(yīng)急演練,通過(guò)可靠的5G SA大區(qū)網(wǎng)絡(luò)容災(zāi)應(yīng)急體系,保障5G SA業(yè)務(wù)的平穩(wěn)運(yùn)行。
本次演練運(yùn)用了首次上線(xiàn)的智能容災(zāi)方案,在容災(zāi)故障事件識(shí)別、容災(zāi)仿真評(píng)估及容災(zāi)過(guò)程可視等環(huán)節(jié),從準(zhǔn)確性、便利性及業(yè)務(wù)可視等方面極大地提升了容災(zāi)作業(yè)的“數(shù)智化”水平,標(biāo)志著江蘇移動(dòng)智能化運(yùn)維水平再上新臺(tái)階。
▲ 智能容方案-容災(zāi)值守看板(用戶(hù)即將完成全量倒換遷移)
——大區(qū)容災(zāi)中的關(guān)鍵挑戰(zhàn)
容災(zāi)是核心網(wǎng)運(yùn)維非常重要的業(yè)務(wù);钍侄危趯(shí)現(xiàn)大區(qū)云化核心網(wǎng)建設(shè)后猶顯重要,而現(xiàn)網(wǎng)實(shí)際容災(zāi)操作中面臨諸多困難及挑戰(zhàn),主要體現(xiàn)在:
1、 容災(zāi)入口難判斷:在什么場(chǎng)景需要觸發(fā)容災(zāi)操作,對(duì)于云化大區(qū)制網(wǎng)絡(luò),需要判斷所發(fā)生的故障對(duì)應(yīng)8級(jí)故障場(chǎng)景中哪一級(jí),又屬于哪一類(lèi)容災(zāi)場(chǎng)景,以便快速確定啟用哪一種容災(zāi)手段來(lái)保全業(yè)務(wù),這需要綜合分析現(xiàn)網(wǎng)告警、KPI、投訴、日志等多維數(shù)據(jù),并結(jié)合專(zhuān)家運(yùn)維經(jīng)驗(yàn)以給出準(zhǔn)確判斷。
2、 容災(zāi)可行性難評(píng)估:大區(qū)制建設(shè)后核心網(wǎng)網(wǎng)元承載用戶(hù)數(shù)多、業(yè)務(wù)流量大,在執(zhí)行容災(zāi)倒換前需要準(zhǔn)確評(píng)估目標(biāo)網(wǎng)元是否具備接管故障網(wǎng)元業(yè)務(wù)的條件、容災(zāi)操作是否會(huì)對(duì)用戶(hù)/業(yè)務(wù)帶來(lái)影響及影響有多大,必須收集大量數(shù)據(jù),并對(duì)組網(wǎng)和網(wǎng)元有深刻理解,同時(shí)由專(zhuān)業(yè)能力過(guò)硬的專(zhuān)家進(jìn)行評(píng)估,方可作出正確的可行性評(píng)估預(yù)判。
3、 容災(zāi)過(guò)程無(wú)實(shí)時(shí)監(jiān)控:大區(qū)網(wǎng)絡(luò)核心網(wǎng)承載業(yè)務(wù)量大,容災(zāi)業(yè)務(wù)遷移往往需要一定周期,業(yè)務(wù)的恢復(fù)情況無(wú)直觀(guān)的手段可實(shí)時(shí)呈現(xiàn),往往需要運(yùn)維人員通過(guò)后臺(tái)查詢(xún)統(tǒng)計(jì)的方式獲取,時(shí)效性和效率都存在一定問(wèn)題,同時(shí)也不直觀(guān)。
容災(zāi)作為核心網(wǎng)日常運(yùn)維及后期重大故障出現(xiàn)時(shí)的;钍侄危枰\(yùn)用自動(dòng)化和智能化的手段來(lái)提高容災(zāi)作業(yè)水平。
——核心網(wǎng)5GC智能容災(zāi)方案具備的關(guān)鍵能力
江蘇移動(dòng)攜手華為成立專(zhuān)項(xiàng)研究小組,就構(gòu)建5GC智能容災(zāi)能力展開(kāi)深入探討,形成了適配大區(qū)云化核心網(wǎng)絡(luò)的智能容災(zāi)方案關(guān)鍵能力。
1、 容災(zāi)事件識(shí)別:基于匯聚告警、日志、性能數(shù)據(jù)等故障信息,結(jié)合智能分析系統(tǒng)快速生產(chǎn)容災(zāi)事件,并自動(dòng)適配已定義的容災(zāi)場(chǎng)景。
2、 容災(zāi)仿真評(píng)估:通過(guò)對(duì)容災(zāi)對(duì)端網(wǎng)元、資源池進(jìn)行靜態(tài)數(shù)據(jù)及配置檢查,模擬容災(zāi)倒換行為,仿真5GC核心網(wǎng)各節(jié)點(diǎn)的流量沖擊情況,調(diào)整相關(guān)流控策略,評(píng)估業(yè)務(wù)恢復(fù)所需時(shí)間。
3、 容災(zāi)過(guò)程可視:通過(guò)容災(zāi)看板實(shí)現(xiàn)倒換過(guò)程可視化監(jiān)控,實(shí)時(shí)呈現(xiàn)倒換進(jìn)展及KPI指標(biāo),及時(shí)識(shí)別異常或風(fēng)險(xiǎn)。
a) 分鐘級(jí)呈現(xiàn)業(yè)務(wù)遷移進(jìn)度關(guān)鍵KPI指標(biāo)。
b) 實(shí)時(shí)呈現(xiàn)目標(biāo)網(wǎng)元業(yè)務(wù)性能指標(biāo)。
c) 實(shí)時(shí)關(guān)聯(lián)呈現(xiàn)目標(biāo)網(wǎng)元活動(dòng)告警。
——江蘇移動(dòng)智能容災(zāi)方案在容災(zāi)演練中的關(guān)鍵領(lǐng)先點(diǎn)
1、 智能容災(zāi)系統(tǒng)在容災(zāi)故障發(fā)生2分鐘內(nèi)識(shí)別并生成正確的容災(zāi)事件,觸發(fā)評(píng)估仿真。
2、 10分鐘內(nèi)完成容災(zāi)評(píng)估仿真,業(yè)務(wù)恢復(fù)仿真曲線(xiàn)與實(shí)際業(yè)務(wù)恢復(fù)曲線(xiàn)基本一致。
3、 整個(gè)容災(zāi)過(guò)程中,用戶(hù)上線(xiàn)全流程實(shí)時(shí)可視。
本次演練活動(dòng),是江蘇移動(dòng)智能容災(zāi)方案上線(xiàn)后的首次生產(chǎn)演練,充分驗(yàn)證了在大區(qū)云核心網(wǎng)智能容災(zāi)方面的能力,也標(biāo)志著江蘇移動(dòng)正式邁入云化網(wǎng)絡(luò)數(shù)智化運(yùn)維運(yùn)維新時(shí)代。未來(lái),江蘇移動(dòng)將繼續(xù)攜手生態(tài)伙伴持續(xù)增強(qiáng)大區(qū)網(wǎng)絡(luò)運(yùn)維數(shù)字化能力,持續(xù)當(dāng)好集團(tuán)自動(dòng)駕駛網(wǎng)絡(luò)目標(biāo)實(shí)現(xiàn)的排頭兵。