隨著算網(wǎng)時代的到來,各領(lǐng)域數(shù)字化、網(wǎng)絡(luò)化、智能化進(jìn)程不斷加速。在未來,算力將能夠像水電一樣廣泛應(yīng)用于各個行業(yè)領(lǐng)域,成為經(jīng)濟(jì)增長的重要基石。傳輸網(wǎng)作為算網(wǎng)一體的數(shù)智化底座,承載著海量的算力業(yè)務(wù),而故障處理的效率成為影響算力底座穩(wěn)定性的關(guān)鍵因素;诖,河南移動積極開展集中故障管理的研究探索,按照標(biāo)準(zhǔn)化的集中故障管理流程,開展告警標(biāo)準(zhǔn)化、關(guān)聯(lián)規(guī)則梳理、預(yù)處理部署等工作,取得了不錯的效果,但是在OTN網(wǎng)絡(luò)維護(hù)中,仍存在諸多困難。
1. 告警量大,工單處理耗費大量人力。根據(jù)河南移動統(tǒng)計結(jié)果顯示,17000網(wǎng)元規(guī)模的網(wǎng)絡(luò),平均每天產(chǎn)生的告警超過了10萬條,日峰值告警量更是接近40萬條,海量告警全部匯聚在網(wǎng)管中心,工單處理依賴人工,嚴(yán)重影響其故障端到端處理時長。
2. 衍生告警產(chǎn)生冗余派單,導(dǎo)致重復(fù)上站,故障處理效率比較低,當(dāng)前故障處理平均時長停留在小時級。
針對這些情況,河南移動聯(lián)合華為引入了iMaster NCE“OTN智能故障管理”解決方案,該方案采用獨創(chuàng)的三級告警壓縮技術(shù),大幅壓縮告警處理量,并基于告警傳播關(guān)系快速識別根因,圖示1。
第一級,針對設(shè)備或業(yè)務(wù)上報的告警,我們基于屏蔽、重定義、匯聚、閃斷、振蕩等豐富的告警過濾規(guī)則,過濾掉重復(fù)、空閑、工程等無效告警,減少80%重復(fù)及冗余告警的干擾;第二級,通過流式聚合算法,從時間、拓?fù)、文本相似性、業(yè)務(wù)路徑多個維度將分散的告警實現(xiàn)高效聚合,聚合準(zhǔn)確率可達(dá)95%,聚合時間小于3分鐘;第三級,通過根因識別算法,計算各個故障的內(nèi)在聯(lián)系,動態(tài)的定向各個節(jié)點之間的因果邏輯,生成故障傳播圖并定位出根因故障。智能故障管理還包含了自優(yōu)化的算法模型,算法一次部署,局點不斷學(xué)習(xí)現(xiàn)網(wǎng)數(shù)據(jù),并且能在線增量的更新模型,越用覆蓋越全,越用越聰明。
圖示1 圖示2
基于OTN智能故障管理,河南移動落地了全新的告警管理思路,即把上報海量告警變?yōu)樯蠄髥我还收鲜录,從而提升整個告警管理以及故障閉環(huán)的效率。該方案在河南移動現(xiàn)網(wǎng)最新驗證成果,可將10萬告警聚合為5000條告警組并自動標(biāo)識出根因告警,實現(xiàn)了平均壓縮率94.77%,聚合準(zhǔn)確率98%,根因準(zhǔn)確率92.95%,根因識別時長分鐘級,助力河南移動在故障數(shù)智化運維上邁向新的臺階。該方案于2022年完成創(chuàng)新項目試點并獲得ICT中國年度創(chuàng)新獎(圖示2),并于2023年7月正式實現(xiàn)商用部署。