2020年3月20號華為開發(fā)者大會HDC.Cloud上,華為網絡人工智能NAIE將線上揭秘網絡AI領域10大公開數據集的具體內容和數據集構建經驗,歡迎大家關注公眾號【網絡人工智能園地】,點擊菜單【HDC】,接入我們的直播和專家線上探討交流!
一、網絡數據治理背景
網絡自動駕駛的本質,是利用AI技術對存量網絡的海量數據進行挖掘和分析,發(fā)現并解決復雜網絡環(huán)境下的痛點問題。該方法可被用于網絡的規(guī)劃、建設、運維和優(yōu)化等階段,基于AI應用逐步實現網絡的智能化。
眾所周知,在AI應用的開發(fā)過程中,70%以上的工作都花費在數據的采集、分析和處理。雖然AI技術發(fā)展至今,在圖片、語音和視頻等領域已經有大量公開的、準確標注的數據,可被直接應用用于AI開發(fā),而網絡領域卻沒有太多公開準確高質量的數據集,可供AI開發(fā)者使用。原因除了網絡領域業(yè)務的專業(yè)性和安全等因素以外。網絡數據標準復雜,數據質量不高需要大成本治理也是主要原因。
網絡的數據難治理主要原因如下:
1)數據格式差異大:不同設備、網管系統(tǒng)生產的數據,其格式和內容是不同的,這些數據往往只能被對應的系統(tǒng)理解和使用,無法直接被端到端整網性的解決方案理解和使用,這樣往往導致開發(fā)出來的AI模型部署、使用范圍有限,無法最大化的發(fā)揮AI模型的價值。
2)數據標注難度大:網絡領域的數據與標準協議、業(yè)務規(guī)劃、網絡配置和運行環(huán)境都有關系,只有將這些因素綜合考慮全面,才能實現準確標準。導致網絡數據標注門檻高,無法通過業(yè)界常用的眾籌和眾包等方式完成數據標注。
本文以網絡故障類數據集準備為例,給大家介紹一下,華為網絡人工智能平臺NAIE做過的數據治理工作,和積累的數據標注和數據質量評估方法。
二、華為網絡人工智能NAIE數據治理方案
1、網絡故障處理的終極目標:一故障一工單
電信網絡技術經過幾十年的不斷演進和發(fā)展,加上網絡的持續(xù)擴容和升級,現在的電信網絡實際上是由不同技術產品組合而成,涵蓋了寬帶、無線、固話等多種業(yè)務,區(qū)分為無線、傳送、數通、核心網等多個領域,且每個領域都有一系列技術產品,每一個產品都有特定的組網配置要求,它們的業(yè)務功能和技術指標各不相同。這樣的組網特點導致電信網絡故障場景復雜,一旦故障就出現設備告警泛濫的痛點。
華為網絡人工智能平臺NAIE將AI技術引入電信網絡故障場景,構建了“一故障一工單”方案——即基于大量的設備告警信息及運維工單,結合網絡拓撲數據,通過機器學習的方式完成故障定界和工單壓縮,從而減少故障定界的時間,降低運維人力成本,避免派發(fā)不必要的維護工單,以提升運維效率。
圖一、描述了一套完整的數據治理流程
2、“一故障一工單”方案中數據工作內容
數據治理工作在AI項目中是貫穿始終的,可以將其分為六部分內容:數據采集、數據清洗、數據轉換、數據標注、數據質量評估和數據集生成。數據工程師需要從業(yè)務出發(fā),充分了解數據內容和特點,依次完成數據的采集、清洗和轉換過程,最終生成AI算法需要的數據集,包括訓練集、驗證集和測試集。
2.1 數據采集
數據工程師需要從網元、網管和其他管理系統(tǒng)上采集到所需數據。數據采集是繁瑣枯燥而且困難的,過程中可能會遇到很多意想不到的問題。而且數據采集首先必須經過客戶的授權,采集到的數據必須先對隱私和保密信息進行脫敏或匿名化處理。
例如一故障一工單方案,如果要解決無線網絡的工單壓縮問題,需要無線基站、承載接入、承載匯聚等領域多個設備的告警數據。
2.2 數據清洗
通常情況下,采集到的數據存在著格式雜亂、數據缺失、數據錯誤等問題,必須解析復雜的半結構化/非結構化數據,檢測和校正損壞或不準確的數據,識別出不完整、不正確和不相關的數據,通過增補、替換、修改、刪除等方式來完善和修正數據。
數據清洗的基本動作包括:特殊字符替換、空行剔除、重復數據剔除、無效數據剔除、數據類型轉換、異常數據過濾和數據增補。
根據“一故障一工單”的業(yè)務要求和數據特點,數據工程師除了上述數據清洗的基本動作,還需要針對特定場景完成特定的數據清洗動作。
例如:
?不同批次采集的原始告警,數據字段錯位或不一致,需要先做歸一化處理;
?若告警數據的實體對象ID缺失,需要從實體對象名稱及擴展信息字段中提取并填充;
?對于無效及異常的數據內容,如果通過業(yè)務關系可以還原恢復的,應該盡量恢復為有效值,不能恢復的則直接剔除;
?復雜的拓撲原始數據需要經過再次解析,結合正則表達式采用通用的方式分解為多個字段信息,保證列的原子性,符合數據庫第一范式的要求。
2.3 數據轉換
為了在業(yè)務上進行數據分析和數據挖掘,原始數據需要通過特征選擇、數據標準化和數據關聯等操作轉換為主題域數據。華為NAIE主題模型規(guī)范包含了時空數據模型、測量數據模型、設備數據模型、拓撲數據模型、故障數據模型等。這些主題模型是各個業(yè)務領域的數據抽象和提煉,能夠完整的表達業(yè)務內容或數據特征,去除了無關或冗余的數據信息。因此,根據華為NAIE主題模型規(guī)范構建的主題數據,可直接作為電信網絡的標準化數據。
2.4 數據標注
數據標注是指對數據樣本進行標記,增加一個有信息含義的標簽。樣本標簽可以是人工手動標注的,也可能基于業(yè)務系統(tǒng)已有的信息進行整合,實現自動化標注。
在絕大多數情況下,如果沒有標注的樣本數據標簽,相關的算法性能指標(平均絕對誤差、均方差、準確率、精確率、召回率以及F1-score等)就無法計算,算法模型的性能沒有指標進行衡量,更不能進行模型的優(yōu)化。所以說,數據標注在數據工作中是非常重要的。
數據標注的依據可以是人的經驗。比如,大面積的無線基站連接中斷告警加上某些傳輸節(jié)點上的連接丟失告警,經驗豐富的運維專家很容易判斷出這是一個群障,很可能是市電掉電導致的,也有可能是光路中斷或者硬件故障。結合現網各類故障的發(fā)生頻率和傳輸節(jié)點的數量和位置,運維專家會給出最可能的原因,作為當前故障的一個根因標注。
數據標注的依據也可以來自于產品文檔,比如,電信網絡是一個分段、分層構建的,硬件層故障可能會導致系統(tǒng)層、應用層的故障,應用層故障不會影響到硬件層,產品文檔中記錄了層次關系,可以通過對文檔分析實現告警關系的提取和總結,從而用于告警數據的標注;
2.5數據質量評估
不是所有的數據都有價值。錯誤的、失衡的、失真的數據都會影響算法效果,甚至影響算法的建模,所以說數據質量會直接影響業(yè)務結果。在完成了上述的數據工作之后,我們需要系統(tǒng)的對治理后的數據質量進行評估。
結合網絡領域運維效率低、能源消耗高、資源利用率低等應用場景,參照業(yè)界常用的數據質量六性原則,華為網絡人工智能NAIE已形成網絡領域八大評估指標,分別是數據準確性、可靠性、完整性、一致性、可理解性、可獲得性、相關性、時效性;華為網絡人工智能NAIE平臺匹配這些評估指標,積累了大量網絡領域數據質量提升措施,實現在數據準備階段對數據質量的提升,縮短數據反饋流程,加速AI模型開發(fā)。
2.6 數據集生成
針對具體的業(yè)務目標,通過對組合后的主題數據進行特征提取、關聯和標注,形成數據洞察所需的數據集,或者算法訓練驗證所需的數據集。
算法訓練所需的數據集可以劃分為訓練集、交叉驗證集和測試集三類。
監(jiān)督學習和半監(jiān)督學習的訓練集必須有樣本標簽,用于算法模型的訓練(通過樣本標簽計算模型誤差,利用梯度下降等方法迭代提升模型精度)。無監(jiān)督學習的訓練集可以沒有樣本標簽,但是驗證集和測試集應當有樣本標簽,用于模型的調優(yōu)和驗證,以及模型效果的評估。
“一故障一工單”選擇了故障主題數據和拓撲主題數據的部分特征,再將故障特征和拓撲特征進行關聯,最后按照時空關系進行故障集合劃分,就形成了基本數據集。然后按照一定的比例對數據集進行劃分,劃分為訓練集、驗證集和測試集。
3、“一故障一工單”方案應用
華為網絡人工智能NAIE “一故障一工單”數據集包含高質量數據和高準確的標注,可以有效支撐AI模型的訓練和驗證,經過已經在現網多個局點的部署和應用驗證,可實現網絡故障工單減少21%。
未來,華為網絡人工智能NAIE將持續(xù)構建覆蓋類型全、價值樣本多、數據質量高的網絡運維操作領域的數據集,供廣大網絡領域AI開發(fā)者應用
華為開發(fā)者大會2020(Cloud)是華為面向ICT(信息與通信)領域全球開發(fā)者的年度頂級旗艦活動。大會旨在搭建一個全球性的交流和實踐平臺,開放華為30年積累的ICT技術和能力,以“鯤鵬+昇騰”硬核雙引擎,為開發(fā)者提供澎湃動力,改變世界,變不可能為可能。屆時在網絡人工智能將在線上有更多詳細內容,我們期待與你共創(chuàng)計算新時代,在一起,夢飛揚!
網絡人工智能園地,力求打造運營商領域第一的人工智能交流平臺,促進華為iMaster NAIE理念在業(yè)界(尤其通信行業(yè))形成影響力!
線上直播鏈接:
https://www.hwtelcloud.com/externals/hdc-2020?from=singlemessage&isappinstalled=0