BOSS接口監(jiān)控及應(yīng)急分析

相關(guān)專題: 中國移動(dòng)

BOSS作為移動(dòng)運(yùn)營商業(yè)務(wù)支撐的最核心系統(tǒng),在提高運(yùn)營能力、控制成本、分析市場(chǎng)等方面都發(fā)揮關(guān)鍵作用。隨著數(shù)據(jù)業(yè)務(wù)的快速發(fā)展,外圍系統(tǒng)不斷增加,系統(tǒng)之間的數(shù)據(jù)傳遞與功能交互也呈劇增趨勢(shì)。

由于歷史與公司發(fā)展策略等多種因素,佛山移動(dòng)的BOSS系統(tǒng)中存在著多種系統(tǒng)并存的情況。而多數(shù)系統(tǒng)由不同公司開發(fā),也導(dǎo)致數(shù)據(jù)格式、消息機(jī)制等不盡相同。其中的惟一相同點(diǎn),是外圍系統(tǒng)都必須通過“接口”才能與BOSS產(chǎn)生交互,接口有效地保證了數(shù)據(jù)安全與模塊獨(dú)立,同時(shí)也意味接口中斷將割裂內(nèi)外部系統(tǒng)的連接。

根據(jù)規(guī)范,所有功能與業(yè)務(wù)的設(shè)置都必須由BOSS發(fā)起,一旦發(fā)生接口故障,涉及外圍系統(tǒng)的一切操作都將失敗。以目前的用戶基數(shù),即便是短時(shí)間內(nèi)發(fā)生異常,所造成的影響也是不可估量。因此,研究如何保障接口的高穩(wěn)定性與可靠性意義重大。

BOSS2.0接口系統(tǒng)框架

BOSS接口系統(tǒng)并非獨(dú)立存在,圖1描述了接口系統(tǒng)的技術(shù)框架,如圖中所示,在整個(gè)技術(shù)架構(gòu)中,BOSS接口所處的位置、與關(guān)聯(lián)模塊的對(duì)接方式、內(nèi)部實(shí)現(xiàn)原理等因素,都是能有效維護(hù)BOSS系統(tǒng)的基本前提。

圖1 BOSS2.0接口系統(tǒng)框架

由圖1可知,從調(diào)用方向的角度看,接口可分為主動(dòng)接口和被動(dòng)接口,分別表示BOSS調(diào)用外圍系統(tǒng)服務(wù),以及外圍系統(tǒng)調(diào)用BOSS服務(wù)。主動(dòng)接口由BOSS應(yīng)用服務(wù)器驅(qū)動(dòng),即BOSS應(yīng)用服務(wù)器上的主動(dòng)服務(wù)接口進(jìn)程,是調(diào)用CICS對(duì)相關(guān)待處理表進(jìn)行輪詢,并將每一條記錄封裝為一條消息放入MQ隊(duì)列(該隊(duì)列均由消息組成),接口機(jī)上的主動(dòng)接口再從隊(duì)列中取出消息進(jìn)行解析,進(jìn)而根據(jù)控制信息發(fā)送到指定系統(tǒng)執(zhí)行。被動(dòng)接口則是由外圍系統(tǒng)驅(qū)動(dòng),通過接口機(jī)上的CICS客戶端調(diào)用BOSS應(yīng)用服務(wù)器上的業(yè)務(wù)層服務(wù)操作數(shù)據(jù)庫。

值得一提的是,作為BOSS與外圍系統(tǒng)的承接點(diǎn),接口的功能最終可歸結(jié)為對(duì)BOSS與外圍系統(tǒng)數(shù)據(jù)庫的操作。其中,主動(dòng)接口的實(shí)現(xiàn)邏輯對(duì)BOSS2.0接口監(jiān)控措施的實(shí)現(xiàn)至關(guān)重要。

接口監(jiān)控措施

監(jiān)控接口是避免故障突發(fā)的重要措施。通過分析運(yùn)行情況,監(jiān)控接口能實(shí)現(xiàn)異常情況的提前預(yù)警,有效地縮短故障持續(xù)時(shí)間。

從分析方法的角度看,監(jiān)控可分為定性和定量兩種,前者關(guān)注受監(jiān)控體相關(guān)因素本質(zhì)是否發(fā)生變化,是常用手段,而后者則深入到相關(guān)因素變化的數(shù)量,使分析更為徹底。

1.接口定性監(jiān)控

接口的本質(zhì)是進(jìn)程,監(jiān)控進(jìn)程一般采用查看進(jìn)程狀態(tài)以及日志分析。作為有具體應(yīng)用的進(jìn)程,接口還有其特殊性,因而接口的定性分析至少覆蓋以下4個(gè)層次。

1)系統(tǒng)環(huán)境

指操作系統(tǒng)及硬件環(huán)境穩(wěn)定,提供進(jìn)程足夠的信息資源,不存在非兼容應(yīng)用等情況,這些是接口賴以生存的基本條件。

2)進(jìn)程狀態(tài)

在系統(tǒng)環(huán)境滿足的情況下,檢測(cè)進(jìn)程狀態(tài)是最重要的方法,但必須注意進(jìn)程活躍并不等同于進(jìn)程正常工作,在Linux系統(tǒng)中,其進(jìn)程可能因異常而停止工作,但仍能在活躍列表中查詢到,此時(shí)需配合日志做進(jìn)一步定位。發(fā)生后這種現(xiàn)象的原因是,在正常情況下,所有的進(jìn)程動(dòng)作都會(huì)被寫入log文件。

3)日志分析

在日志分析環(huán)節(jié),主要包括寫入狀態(tài)與日志內(nèi)容,如果檢測(cè)到日志處于寫狀態(tài),則說明對(duì)應(yīng)進(jìn)程是活躍的,但進(jìn)程正常與否尚需進(jìn)一步判斷日志內(nèi)容。異常操作時(shí),在日志中會(huì)有失敗代碼關(guān)鍵字返回,如failed、error等。

4)進(jìn)程時(shí)態(tài)

進(jìn)程時(shí)態(tài)指從業(yè)務(wù)角度看進(jìn)程活躍的時(shí)間段。并非所有進(jìn)程都是24小時(shí)處于工作狀態(tài),正如銀行劃扣接口一般只允許在夜間啟動(dòng),因此白天期間檢測(cè)日志是無法判斷該進(jìn)程是否正常,若不考慮該特性,則可基本判斷該進(jìn)程結(jié)果是否有可能出錯(cuò)。

在接口的定性監(jiān)控方面,只有充分結(jié)合以上4個(gè)因素,才能對(duì)接口運(yùn)行情況形成較全面認(rèn)識(shí)。

在具體實(shí)施上,為了形成統(tǒng)一的體系以方便監(jiān)控并達(dá)到告警信息與實(shí)時(shí)的反饋,可將以上4個(gè)層面因素納入IBM公司開發(fā)的TIVOLI監(jiān)控系統(tǒng)。除此之外,為實(shí)現(xiàn)告警信息的自動(dòng)推送與分發(fā),可將自行開發(fā)告警信息轉(zhuǎn)發(fā)程序接入TIVOLI監(jiān)控系統(tǒng)信息庫。一旦檢測(cè)到異常信息存在則立即進(jìn)行短信或郵件的發(fā)送,確保維護(hù)人員及時(shí)了解接口系統(tǒng)運(yùn)行情況。整個(gè)過程如圖2所示。

圖2 TIVOLI監(jiān)控接口模型

2.接口定量監(jiān)控

上文措施均從接口本身入手,并定性分析其運(yùn)行情況。根據(jù)圖1對(duì)主動(dòng)接口實(shí)現(xiàn)機(jī)制的描述,本節(jié)文字將從外系統(tǒng)(BOSS庫表)的角度提出監(jiān)控措施,并利用表面不關(guān)聯(lián)的數(shù)據(jù)實(shí)現(xiàn)對(duì)接口性能的定量分析。

由于主動(dòng)接口的業(yè)務(wù)數(shù)據(jù)來源于BOSS庫表,那么,庫表數(shù)據(jù)累積情況即反映了接口的運(yùn)行情況,而庫表數(shù)據(jù)的遞減情況也就反映了接口的性能。示意圖如圖3。

圖3 庫表數(shù)據(jù)變動(dòng)邏輯示意圖

假設(shè)主動(dòng)接口在正常工作的情況下進(jìn)程數(shù)為N,庫表原有數(shù)據(jù)量U,業(yè)務(wù)請(qǐng)求增速恒定Su,經(jīng)過時(shí)間t后U降低為0(生產(chǎn)環(huán)境中取接近0,若庫表數(shù)據(jù)隨時(shí)間不斷增加則說明接口性能不滿足),則接口單個(gè)進(jìn)程性能為Ci=(U+Sut)/Nt。通過接口性能能夠評(píng)估其吞吐能力,再結(jié)合業(yè)務(wù)量重新調(diào)整接口進(jìn)程數(shù),達(dá)到資源優(yōu)化配置。

作者:中國移動(dòng)通信集團(tuán)廣東有限公司佛山分公司 陳健榮 來源:通信世界周刊


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動(dòng):6G至簡(jiǎn)無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動(dòng)算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息