江西移動(dòng)基于IT資源管理成功案例


  為不斷保持和提高全省業(yè)務(wù)支撐網(wǎng)的運(yùn)營(yíng)維護(hù)和管理水平,江西移動(dòng)業(yè)務(wù)支撐系統(tǒng)部開展了一系列技術(shù)攻關(guān)活動(dòng),并形成了獨(dú)特的“IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理”流程,在一定程度上提升了IT支撐工作的管理質(zhì)量。

一、實(shí)現(xiàn)“IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理”的理由

   如圖1所示。

二、目標(biāo)設(shè)定

  1.IT資源配置項(xiàng)目信息可根據(jù)IT基礎(chǔ)架構(gòu)(如主機(jī)設(shè)備)的類別、型號(hào)、主要應(yīng)用、物理位置等關(guān)鍵索引進(jìn)行分類瀏覽,實(shí)現(xiàn)服務(wù)流程管理平臺(tái)的統(tǒng)一。

  2.IT資源配置管理界面可展現(xiàn)IT基礎(chǔ)架構(gòu)配置項(xiàng)的實(shí)時(shí)性能指標(biāo),包括CPU利用率、內(nèi)存利用率、I/O等待率等,可通過工單提取最近一次設(shè)備重啟時(shí)間和健康檢查時(shí)間,并可進(jìn)一步查看工單的詳細(xì)信息,如當(dāng)前處理人等。

  3.IT資源配置管理平臺(tái)產(chǎn)生的告警信息可實(shí)時(shí)、自動(dòng)地發(fā)送給維護(hù)人員,以便及時(shí)處理突發(fā)事件,建立用于故障評(píng)價(jià)和防范的歷史知識(shí)庫,減少系統(tǒng)停頓服務(wù)時(shí)間,加強(qiáng)系統(tǒng)可靠性和可維護(hù)性。

  4.IT資源配置管理流程的職責(zé)劃分:設(shè)備管理員負(fù)責(zé)管理IT基礎(chǔ)架構(gòu)的基本信息,并實(shí)施具體的重啟、健康檢查、維修等各項(xiàng)操作;業(yè)務(wù)管理員負(fù)責(zé)分析IT基礎(chǔ)架構(gòu)的業(yè)務(wù)性能,并在接到設(shè)備管理員的核查工單請(qǐng)求后,實(shí)施相關(guān)業(yè)務(wù)的核查處理。

  5.IT資源配置管理平臺(tái)可支持多種輸入方式,如動(dòng)態(tài)數(shù)據(jù)采集或手工數(shù)據(jù)錄入等,同時(shí)保留現(xiàn)有手工修改方式(暫時(shí)不考慮自動(dòng)修改配置信息),并支持多種查詢方式。

  通過對(duì)現(xiàn)有流程不足之處的詳細(xì)分析,同時(shí)借鑒國(guó)內(nèi)外服務(wù)流程的成功經(jīng)驗(yàn),我們有充分理由相信,設(shè)計(jì)一套符合江西移動(dòng)實(shí)際情況的IT基礎(chǔ)架構(gòu)資源配置動(dòng)態(tài)管理流程是完全可以實(shí)現(xiàn)的。


圖1  實(shí)現(xiàn)“IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理”的理由


三、原因分析

  通過運(yùn)用“頭腦風(fēng)暴法”,對(duì)IT基礎(chǔ)架構(gòu)的資源配置管理中存在問題的原因進(jìn)行關(guān)聯(lián)分析,結(jié)果如圖2所示。


圖2  原因關(guān)聯(lián)圖


四、要因確認(rèn)

  通過分析論證,共找出13個(gè)末端因素。要因確認(rèn)如表一所示。

表一  要因確認(rèn)表

[table]






















































































序號(hào)


末端因素


確認(rèn)內(nèi)容


確認(rèn)方法


確認(rèn)標(biāo)準(zhǔn)


1


200網(wǎng)站數(shù)據(jù)庫存放部分配置信息


配置信息是否存在于200網(wǎng)站數(shù)據(jù)庫


查閱200網(wǎng)站數(shù)據(jù)庫


200網(wǎng)站數(shù)據(jù)庫中存放了配置信息


2


BOSS網(wǎng)管數(shù)據(jù)庫存放部分配置信息


配置信息是否存在于BOSS網(wǎng)管數(shù)據(jù)庫


查閱BOSS網(wǎng)管數(shù)據(jù)庫


BOSS網(wǎng)管數(shù)據(jù)庫中存放了配置信息


3


未定期檢查資產(chǎn)配置狀況


查看上一次資產(chǎn)配置狀況記錄的內(nèi)容


調(diào)查對(duì)比


上一次資產(chǎn)配置狀況記錄的內(nèi)容與事實(shí)不符


4


未及時(shí)更新設(shè)備維修操作記錄


查看上一次設(shè)備維修操作記錄的時(shí)間


調(diào)查對(duì)比


上一次設(shè)備維修操作記錄的時(shí)間與事實(shí)不符


5


配置項(xiàng)目未展現(xiàn)實(shí)時(shí)性能指標(biāo)


查看資產(chǎn)瀏覽模塊


有否實(shí)時(shí)KPI展現(xiàn)


配置項(xiàng)未與KPI關(guān)聯(lián)展現(xiàn)


6


設(shè)備重啟工單只能人工發(fā)起


分析設(shè)備重啟工單


查閱工單發(fā)起條件


只能通過人工發(fā)起設(shè)備重啟工單


7


健康檢查工單只能人工發(fā)起


分析健康檢查工單


查閱工單發(fā)起條件


只能通過人工發(fā)起健康檢查工單


8


出現(xiàn)告警時(shí)未自動(dòng)發(fā)送短信通知


查看短信通知平臺(tái)


查詢短信發(fā)送條件


沒有通過短信平臺(tái)發(fā)送告警


9


指標(biāo)超過閥值時(shí)未自動(dòng)觸發(fā)應(yīng)用核查


分析告警是否觸發(fā)應(yīng)用核查工單


查閱工單記錄


根據(jù)告警證實(shí)未觸發(fā)應(yīng)用核查工單


10


沒有建立故障處理歷史知識(shí)庫


查看是否存在故障歷史知識(shí)庫


查閱系統(tǒng)數(shù)據(jù)庫


沒有歷史故障知識(shí)庫數(shù)據(jù)


11


配置信息自動(dòng)調(diào)整的溝通渠道不暢


分析配置調(diào)整是否自動(dòng)觸發(fā)工單


查閱工單記錄


根據(jù)配置調(diào)整證實(shí)未自動(dòng)觸發(fā)工單


12


人員職責(zé)不清晰


查看工單的職責(zé)設(shè)計(jì)


查閱工單


未明確說明人員職責(zé)分工


13


工單信息不詳盡


查看工單的包含信息


查閱工單


未包含足夠的流轉(zhuǎn)位置信息

[/table]

  對(duì)各要因進(jìn)行進(jìn)一步分析。

  1.200網(wǎng)站數(shù)據(jù)庫存放部分配置信息

  雖然200網(wǎng)站數(shù)據(jù)庫中存放了部分配置信息,但這并不影響實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程,并且還可以通過數(shù)據(jù)遷移的技術(shù)方式,與BOSS網(wǎng)管系統(tǒng)數(shù)據(jù)庫融合。不是要因。

  2.BOSS網(wǎng)管數(shù)據(jù)庫存放部分配置信息

  BOSS網(wǎng)管數(shù)據(jù)庫中存放了部分配置信息,但同樣這也并不影響實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程,并且還可以將200網(wǎng)站數(shù)據(jù)遷移至BOSS網(wǎng)管數(shù)據(jù)庫中,實(shí)現(xiàn)配置信息的整合。不是要因。

  3.未定期檢查資產(chǎn)配置狀況

  反映了配置信息日常的正確性檢查機(jī)制欠缺,但是資產(chǎn)配置狀況的更新頻度較小、范圍較窄,對(duì)實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程的影響較小。不是要因。

  4.未及時(shí)更新設(shè)備維修操作記錄

  反映了配置信息日常的正確性檢查機(jī)制欠缺,無法保證其準(zhǔn)確性,對(duì)實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程有較大影響。是要因。

  5.配置項(xiàng)目未展現(xiàn)實(shí)時(shí)性能指標(biāo)

  反映了配置信息偏重于靜態(tài)應(yīng)用,無法識(shí)別系統(tǒng)性能瓶頸,不能提出有針對(duì)性的系統(tǒng)優(yōu)化或擴(kuò)容實(shí)施方案,因此無法實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理。是要因。

  6.設(shè)備重啟工單只能人工發(fā)起

  設(shè)備重啟工單只能人工發(fā)起,使得配置信息的更新僅限于提交變更時(shí),但該類工單較少更新IT基礎(chǔ)架構(gòu)的資源配置信息,對(duì)實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程的影響較小。不是要因。

  7.健康檢查工單只能人工發(fā)起

  情況與6相似。不是要因。

  8.出現(xiàn)告警時(shí)未自動(dòng)發(fā)送短信通知

  反映了系統(tǒng)缺乏自動(dòng)發(fā)送告警信息機(jī)制,極易造成突發(fā)事件處理響應(yīng)速度慢,嚴(yán)重影響了生產(chǎn)系統(tǒng)的平穩(wěn)運(yùn)行。是要因。

  9.指標(biāo)超過閥值時(shí)未自動(dòng)觸發(fā)應(yīng)用核查

  表明配置信息的數(shù)據(jù)維護(hù)能力不足,導(dǎo)致無法自動(dòng)提交給應(yīng)用人員進(jìn)行核查,對(duì)實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程有較大影響。是要因。

  10.沒有建立故障處理歷史知識(shí)庫

  表明系統(tǒng)尚未具備對(duì)問題原因進(jìn)行深入分析、總結(jié)和提煉的手段,但是歷史知識(shí)庫屬于靜態(tài)數(shù)據(jù)范疇,對(duì)實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程的影響較小。不是要因。

  11.配置信息自動(dòng)調(diào)整的溝通渠道不暢

  表明各專業(yè)組之間尚未形成有效的信息溝通渠道,且不能衡量配置信息處理流程的時(shí)效性,對(duì)實(shí)現(xiàn)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程有較大影響。是要因。

  12.人員職責(zé)不清晰

  人員職責(zé)不清晰雖然造成配置信息的處理過程不可控,無法衡量流程的時(shí)效性,但是并不對(duì)IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程產(chǎn)生實(shí)質(zhì)性的影響。不是要因。

  13.工單信息不詳盡

  情況與12相似。不是要因。

五、對(duì)策制定

  根據(jù)確定的要因,我們制定以下對(duì)策措施。如表二所示。

表二  要因?qū)Σ弑?/center>
[table]






































序號(hào)


要因


對(duì)策


目標(biāo)


措施


1


未及時(shí)更新設(shè)備維修操作記錄


通過流程記錄設(shè)備維修操作


及時(shí)記錄設(shè)備維修情況


設(shè)計(jì)閉環(huán)、及時(shí)的設(shè)備維修操作記錄流程


2


配置項(xiàng)目未展現(xiàn)實(shí)時(shí)性能指標(biāo)


添加配置項(xiàng)目的展現(xiàn)內(nèi)容


展現(xiàn)配置項(xiàng)的實(shí)時(shí)KPI


修改配置項(xiàng)目展現(xiàn)界面,增加動(dòng)態(tài)KPI指標(biāo)


3


出現(xiàn)告警時(shí)未自動(dòng)發(fā)送短信通知


在短信平臺(tái)中添加觸發(fā)條件


實(shí)現(xiàn)告警短信自動(dòng)發(fā)送


修改短信平臺(tái)發(fā)送條件的參數(shù)設(shè)置


4


指標(biāo)超過閥值時(shí)未自動(dòng)觸發(fā)應(yīng)用核查


系統(tǒng)自動(dòng)或人工發(fā)起超過閥值的工單


應(yīng)用核查確認(rèn)超過閥值是否影響運(yùn)行


設(shè)計(jì)能夠自動(dòng)觸發(fā)的應(yīng)用核查工單流程


5


配置信息自動(dòng)調(diào)整的溝通渠道不暢


通過流程實(shí)現(xiàn)各專業(yè)組之間的溝通


促進(jìn)配置信息自動(dòng)調(diào)整后的溝通


設(shè)計(jì)順暢的配置信息自動(dòng)調(diào)整的溝通流程

[/table]

六、對(duì)策實(shí)施

  1.設(shè)計(jì)閉環(huán)、及時(shí)的設(shè)備維修操作記錄流程

  本流程的維修操作工單由對(duì)應(yīng)設(shè)備的設(shè)備管理員發(fā)起,填寫操作原由、操作內(nèi)容、計(jì)劃操作時(shí)間和業(yè)務(wù)配合人(一般情況下為該設(shè)備的業(yè)務(wù)管理員),提交至設(shè)備組組長(zhǎng)審核,若審核通過則進(jìn)行相關(guān)操作并記錄維修結(jié)果,同時(shí)業(yè)務(wù)配合人記錄業(yè)務(wù)應(yīng)用情況。審核通過后系統(tǒng)在將工單發(fā)送給設(shè)備管理員的同時(shí),提醒業(yè)務(wù)配合人閱知。

  應(yīng)用管理員可以為多個(gè),需要所有業(yè)務(wù)管理員均核查同意后工單才可以終止。只要其中一個(gè)應(yīng)用管理員駁回,工單都會(huì)被駁回,重新進(jìn)入操作人員執(zhí)行狀態(tài)。

  2.修改配置項(xiàng)目展現(xiàn)界面,增加動(dòng)態(tài)KPI指標(biāo)

  IT基礎(chǔ)架構(gòu)的每個(gè)配置項(xiàng)目(CI)必須被有效管理、跟蹤和控制,以支持IT服務(wù)和基礎(chǔ)設(shè)施正常運(yùn)行。一般而言,傳統(tǒng)的資源管理方式偏重于靜態(tài)應(yīng)用,由于資源信息變更不及時(shí),造成資源配置信息不準(zhǔn)確;而資源配置的動(dòng)態(tài)管理強(qiáng)調(diào)通過服務(wù)管理流程及時(shí)反映各類資源KPI(關(guān)鍵性能指標(biāo))實(shí)時(shí)狀態(tài)。以主機(jī)設(shè)備為例,從配置項(xiàng)目展現(xiàn)界面中,可知當(dāng)前CPU利用率、內(nèi)存利用率、IO等待率等KPI的實(shí)時(shí)狀態(tài)。

  3.修改短信平臺(tái)發(fā)送條件的參數(shù)設(shè)置

  設(shè)計(jì)告警短信自動(dòng)發(fā)送的思路是:當(dāng)生產(chǎn)系統(tǒng)IT基礎(chǔ)架構(gòu)主要部件產(chǎn)生告警時(shí),BOSS網(wǎng)管系統(tǒng)調(diào)用短信平臺(tái)的外部接口程序,并根據(jù)告警事件的分類進(jìn)行判斷,然后從數(shù)據(jù)庫中查找到相應(yīng)維護(hù)人員的手機(jī)號(hào)碼,最終成功發(fā)送短信通知。在系統(tǒng)中可以定義發(fā)送短信通知的告警級(jí)別以及修改接受短信人員的所屬組別和手機(jī)號(hào)碼,以便靈活調(diào)整。

  4.設(shè)計(jì)能夠自動(dòng)觸發(fā)的應(yīng)用核查工單流程

  本流程實(shí)現(xiàn)了系統(tǒng)一旦監(jiān)測(cè)到某一設(shè)備相關(guān)指標(biāo)達(dá)到閥值時(shí),自動(dòng)觸發(fā)生成應(yīng)用檢查工單并自動(dòng)流轉(zhuǎn)至設(shè)備管理員的功能。設(shè)備管理員進(jìn)行初步核查后將該工單流轉(zhuǎn)至業(yè)務(wù)管理員,以便進(jìn)行業(yè)務(wù)應(yīng)用檢查,記錄檢查情況并提出建議。本流程也支持人為發(fā)起工單方式,相關(guān)人員對(duì)某臺(tái)設(shè)備進(jìn)行操作前,需要通知該設(shè)備的業(yè)務(wù)管理員知曉并確認(rèn)。應(yīng)用管理員可以為多個(gè),在審核時(shí),需要多個(gè)業(yè)務(wù)管理員都通過才能視為通過,流程才能進(jìn)入下一狀態(tài)。

  5.設(shè)計(jì)順暢的配置信息自動(dòng)調(diào)整溝通流程

  本流程為各業(yè)務(wù)組與設(shè)備組之間進(jìn)行有關(guān)設(shè)備配置信息調(diào)整提供溝通處理渠道。因應(yīng)用需要涉及設(shè)備資源信息變更和調(diào)整,必須手工發(fā)起需求調(diào)整工單,輸入設(shè)備IP地址、變更類型和具體需求主題、需求內(nèi)容后,再經(jīng)發(fā)起人所在組組長(zhǎng)審核通過后提交至設(shè)備組組長(zhǎng)進(jìn)行審核,如確認(rèn)可操作則指定具體操作人(一般情況下為設(shè)備管理員),由操作人記錄具體執(zhí)行情況。操作人員在執(zhí)行本次配置調(diào)整需求完畢后,必須通過配置管理模塊進(jìn)行相關(guān)資產(chǎn)信息的調(diào)整,確保IT基礎(chǔ)架構(gòu)資源配置信息的及時(shí)和準(zhǔn)確。需求類型包括:增加空間、增加用戶、賦予權(quán)限、調(diào)整參數(shù)和調(diào)整業(yè)務(wù)等。

  如果需求工單為業(yè)務(wù)組人員發(fā)起,需要業(yè)務(wù)組長(zhǎng)審批通過方可發(fā)起審批,如果為設(shè)備組直接發(fā)起,則流程不需要業(yè)務(wù)組長(zhǎng)審批。業(yè)務(wù)組長(zhǎng)或設(shè)備組長(zhǎng)認(rèn)為變更不需要,也可以直接結(jié)束工單。

七、效果評(píng)估

  本次活動(dòng)取得了良好效果:在IT基礎(chǔ)架構(gòu)的資源配置動(dòng)態(tài)管理流程保障下,實(shí)現(xiàn)了告警自動(dòng)短信通知,并改善了專業(yè)組之間配置信息溝通渠道,使得全省BOSS系統(tǒng)全年故障次數(shù)控制在預(yù)定目標(biāo)值以下;利用關(guān)鍵性能指標(biāo)的實(shí)時(shí)監(jiān)控界面,成功識(shí)別出系統(tǒng)性能瓶頸,并提出了系統(tǒng)優(yōu)化擴(kuò)容方案,使得全省BOSS系統(tǒng)全年優(yōu)化擴(kuò)容效果超過預(yù)定目標(biāo)值。并為下一步有效地建立其它IT服務(wù)管理流程打下了基礎(chǔ)。


----《通信世界》

作者:李曉雯 萬鋒   

掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

      最新招聘信息