摘要 移動網(wǎng)絡(luò)運營商對運維人員進行排班的科學(xué)性對網(wǎng)絡(luò)的運行質(zhì)量起著重要的作用。我們發(fā)現(xiàn),網(wǎng)絡(luò)故障的出現(xiàn)在一定時間周期內(nèi)符合泊松分布的自然規(guī)律,因此在確定運維人員數(shù)量時,可以用排隊論的思想來建模。
1、排隊論與泊松分布概述
1.1 排隊論簡介
排隊論是運籌學(xué)的又一個分支,它又叫做隨機服務(wù)系統(tǒng)理論。它的研究目的是要回答如何改進服務(wù)機構(gòu)或組織被服務(wù)的對象,使得某種指標(biāo)達(dá)到最優(yōu)的問題。比如一個港口應(yīng)該有多少個碼頭,一個工廠應(yīng)該有多少維修人員等。
排隊論最初是二十世紀(jì)初由丹麥工程師艾爾郎研究電話交換機效率開始的,在第二次世界大戰(zhàn)中為估算飛機場跑道的容納量,使之得到進一步的發(fā)展,其相應(yīng)的學(xué)科更新論、可靠性理論等也都發(fā)展起來。
因為排隊現(xiàn)象是一個隨機現(xiàn)象,因此在研究排隊現(xiàn)象的時候,主要采用的是研究隨機現(xiàn)象的概率論作為主要工具。此外,還有微分和微分方程。排隊論把它所要研究的對象形象的描述為顧客來到服務(wù)臺前要求接待。如果服務(wù)臺以被其它顧客占用,那么就要排隊。另一方面,服務(wù)臺也時而空閑、時而忙碌。就需要通過數(shù)學(xué)方法求得顧客的等待時間、排隊長度等的概率分布。
排隊論在日常生活中的應(yīng)用是相當(dāng)廣泛的,比如水庫水量的調(diào)節(jié)、生產(chǎn)流水線的安排、電網(wǎng)的設(shè)計等等。
1.2 泊松分布簡介
泊松分布適合于描述單位時間內(nèi)隨機事件發(fā)生的次數(shù),它有兩個特征:一是總體上的稀有性,另一個是局部的密集性和偶然性。
自然科學(xué)領(lǐng)域公認(rèn)的普遍存在的泊松分布現(xiàn)象有:
數(shù)字通訊中傳輸數(shù)字發(fā)生的誤碼個數(shù):總的來說,數(shù)字通訊傳遞的信息是基本準(zhǔn)確的,因此發(fā)生誤碼的個數(shù)很少,但因為前后的碼字很有可能具有密切的計算相關(guān)性(如:在傳遞多媒體圖像時,往往使用前后幀灰度的絕對差值來編碼),一旦一個位置發(fā)生誤碼,則很有可能帶來群體性的誤碼產(chǎn)生。
另外,電信傳輸中誤碼率的計算、大量螺絲釘中不合格產(chǎn)品出現(xiàn)的次數(shù)、交通管理中車輛流量分析等隨機變數(shù)都類似地符合泊松分布。
甚至在社會科學(xué)領(lǐng)域,我們也可以捕捉到泊松分布的案例。如腐敗現(xiàn)象的發(fā)生和發(fā)展也是呈泊松分布勢態(tài)的:首先,從全世界范圍來看,腐敗現(xiàn)象從總體上來說發(fā)生的概率較小,對于一些法制比較健全和完善、而且執(zhí)行得也較好的國家,腐敗現(xiàn)象出現(xiàn)的概率就要少些,即使出現(xiàn)了也能較快受到查處。但是也不可避免的會有少部分國家,腐敗現(xiàn)象會集中反復(fù)地出現(xiàn)。
其次,從近年查處的一系列“前腐后繼案”、“串案”、“窩案”中也可看到泊松分布規(guī)律的存在。好多案子,都是一扯一大串,一挖就挖出一窩。“前腐后繼案”表明了腐敗現(xiàn)象在時間上是呈泊松分布,“窩案”表明了腐敗現(xiàn)象在空間上呈泊松分布,而“串案”則表明了腐敗現(xiàn)象在立體上是呈泊松分布。
另外類似的還有貸款組合違約概率的分布也可視為接近泊松分布。
2、運維中心建模
2.1 運維中心工作流程分析
對于運維中心來說,每故障總耗時(T)是衡量運營商運維能力的重要指標(biāo),也是影響網(wǎng)絡(luò)運行質(zhì)量的重要因素。所謂每故障總耗時,是指網(wǎng)絡(luò)故障從發(fā)現(xiàn)告警,到故障徹底排除的總時間,如圖1所示:
圖1 故障解決流程圖
其中,t1是故障在系統(tǒng)中等待的時間,t2是運維人員受理故障的時間。
其實,把運維中心簡單化來看,就是一個非常標(biāo)準(zhǔn)的排隊論模型(參見圖2)。
圖2 排隊論模型
從模型本身來看,是非常簡單的三個過程,顧客到來、接受服務(wù)和離開。其中當(dāng)顧客比較多,而服務(wù)臺不能同時服務(wù)足夠多的顧客時,就有顧客開始排隊,直到自己被服務(wù)為止。對于運維中心,情況基本相同,所以我們就可以利用排隊論模型來對運維中心的相關(guān)數(shù)據(jù)進行分析。
在排隊論模型中,幾個關(guān)鍵前提是:
●顧客的到來服從固定的分布;
●服務(wù)臺的服務(wù)時間服從固定分布;
●服務(wù)規(guī)則。
對應(yīng)到運維中心的情況為:
●在一個省公司管理的范圍內(nèi)、一個統(tǒng)計時間段內(nèi),故障的發(fā)生服從泊松分布的分布,參數(shù)為λ,即:網(wǎng)絡(luò)設(shè)備故障率為λ(個/單位時間),以下將進行論證;
●運維人員從受理到故障排除的時間(t2)服從參數(shù)為μ的負(fù)指數(shù)分布,即:t2的數(shù)學(xué)期望值為μ(單位時間);
●運維中心相關(guān)規(guī)定:先出現(xiàn)的故障先解決,同時,每個故障的平均等待時間(t1)要限定在一定的范圍內(nèi)以保證網(wǎng)絡(luò)的運行質(zhì)量。該范圍是各省移動根據(jù)自身實際情況來確定一個值。
這樣,只要知道了λ和μ,并根據(jù)該省的服務(wù)水平制定出故障的平均等待時間(t1),就可以計算出所需要的運維人員數(shù)。
2.2 網(wǎng)絡(luò)故障規(guī)律分析
下面將就網(wǎng)絡(luò)的故障發(fā)生率是否符合泊松分布進行論證。
根據(jù)某運營商提供的數(shù)據(jù),故障的分布從大的時段上看是有規(guī)律的,例如年周期、月周期、周周期等等。但是小到一定的程度故障的數(shù)量就會趨向于隨機分布。一天大部分故障集中在早上6點以后到晚上24點以前,而從零點到6點的故障數(shù)比較少。因此,我們假設(shè)在6:00-24:00,以及0:00-6:00的時間內(nèi),故障服從泊松分布。
根據(jù)泊松分布的特點,對比自然和社會的典型泊松分布案例來分析網(wǎng)絡(luò)故障的發(fā)生特點:總體來說,網(wǎng)絡(luò)的故障時間畢竟是占少數(shù),正常運轉(zhuǎn)時間是占絕大多數(shù)的;其次,一旦網(wǎng)絡(luò)中某個設(shè)備或者某段線路發(fā)生故障,則很可能會引起一系列的關(guān)聯(lián)性告警,從而使這段時間的告警呈現(xiàn)出密集的局面。
因此我們可以判斷,在一天的分時間段內(nèi),網(wǎng)絡(luò)故障的發(fā)生符合泊松分布的特點,即:在時間間隔T內(nèi)有k個網(wǎng)絡(luò)故障的概率為:,網(wǎng)絡(luò)設(shè)備故障率參數(shù)為λ(個/單位時間)。
2.3 排隊模型算法實現(xiàn)
2.3.1 公式推導(dǎo)
通過以上對運維中心進行建模,我們可以掌握一天分時間段內(nèi)的故障情況,明確影響因素,通過調(diào)整值班的運維人員數(shù)量來控制排障總體時間。
根據(jù)前面章節(jié)的假設(shè),一天分時間段內(nèi),出現(xiàn)的故障數(shù)服從參數(shù)為λ的泊松分布,運維人員的服務(wù)時間t2服從參數(shù)為μ的負(fù)指數(shù)分布。則目前有n個運維人員上班,系統(tǒng)內(nèi)有i個故障的概率為P(i),分析這個時候的排隊系統(tǒng),得到狀態(tài)轉(zhuǎn)移關(guān)系圖見圖3:
圖3 排隊系統(tǒng)狀態(tài)轉(zhuǎn)移圖
由此得到差分方程:
求解,可以得到:
同時,還有一些因素影響著運維人員的安排,如:每個故障的平均等待時間(t1)。根據(jù)推算,t1的計算公式為:
從公式(1),可以看出,值班人數(shù)(c)和t1成反比關(guān)系,即同時值班的人數(shù)越多,故障的等待時間越短。
總結(jié)與值班人數(shù)相關(guān)的影響參數(shù)如表1所示。
從表1看出:安排值班的人數(shù)越多,則平均同時等待或者同時被處理的故障數(shù)都越少、每個故障的等待時間和總共的處理時間也越少、運維人員空閑的可能性越大,而工作飽和度則越低。
綜上所述,我們可先根據(jù)λ、μ計算出c,然后通過調(diào)節(jié)c來得到需要的x1,t1等影響參數(shù)的值。
2.3.2 計算步驟
(以下數(shù)據(jù)非真實數(shù)據(jù),已經(jīng)過處理):
已知條件:
(1)某運營商地市公司現(xiàn)有8個BSC,800個基站,從中抽取三個BSC一天的告警(非節(jié)假日)。當(dāng)天需處理的故障12條,其中6:00-24:00有10條,0:00-6:00有2條;
(2)該地市公司有7個運維人員,分為四班倒,三個白班時段,每時段2人(即:白班共6人),一個晚班時段,安排1個人,經(jīng)多年工作驗證,剛好滿足該市運維的需求;
(3)據(jù)統(tǒng)計,該公司運維人員受理故障時間數(shù)學(xué)期望值為30分鐘(0.5小時/故障)
根據(jù)已知條件來進行計算:
步驟一:該地市公司全部800個基站和8個BSC,估計一天共需要處理的故障32個,其中6:00-24:00有27條,0:00-6:00有5條;
步驟二:把該地市公司白班的數(shù)據(jù):λ=27/18=1.5,μ=0.5(hour),c=6代入公式(1),得出符合該地市實際需求的影響參數(shù):t1=0.08(hour);x1=45%;x2=0.87;x3=0.58;x4=0.12;x5=0.08;x6=37%;
步驟三:該地市所在省公司的網(wǎng)絡(luò)總規(guī)模:全省89個BSC,8900個基站,則每天需處理故障約356個,其中297個發(fā)生在6:00-24:00時段,59個發(fā)生在0:00-6:00時段;
步驟四:將該地市所在省公司白班的參數(shù)λ=297/18=16.5;μ=0.5(hour)代入方程(1),反復(fù)調(diào)節(jié)c值得出逼近步驟二算出的影響參數(shù)的值,即白班每時段需運維人員:11人;
步驟五:白天需要運維人員數(shù):11*3=33人;同理,得出晚上需要運維人員數(shù)7人;因此總共需要運維人員:33+7=40人。
來源:中國聯(lián)通網(wǎng)站