背景分析
2007年1月,中國(guó)移動(dòng)集團(tuán)公司下發(fā)了《區(qū)域管理應(yīng)用業(yè)務(wù)技術(shù)方案》,并將區(qū)域化營(yíng)銷的相關(guān)技術(shù)部署工作正式納入BASS1.5工程中進(jìn)行實(shí)施。3月,集團(tuán)公司將區(qū)域化營(yíng)銷的相關(guān)應(yīng)用定為經(jīng)營(yíng)分析1.5工程中三大重點(diǎn)應(yīng)用之一,要求各省公司進(jìn)行推廣和使用。
黑龍江省區(qū)域化營(yíng)銷的系統(tǒng)開(kāi)發(fā)工作,于2007年3月25日完成并上線運(yùn)行,在區(qū)域化歸屬過(guò)程中,系統(tǒng)是基于對(duì)全部客戶的通話清單進(jìn)行運(yùn)算,且計(jì)算過(guò)程比較繁瑣,每月計(jì)算期間所涉及到的數(shù)據(jù)量高達(dá)250G左右,總數(shù)據(jù)量已經(jīng)接近1.5T(截至2007年12月份),對(duì)目前的系統(tǒng)造成了極大的壓力。
為了更好地為市場(chǎng)服務(wù),優(yōu)化現(xiàn)有系統(tǒng),黑龍江移動(dòng)以目前區(qū)域化營(yíng)銷系統(tǒng)的實(shí)際情況為出發(fā)點(diǎn),以更準(zhǔn)確、高效地進(jìn)行客戶歸屬為目的,從理論上研究并論證區(qū)域化營(yíng)銷系統(tǒng)性能和歸屬算法優(yōu)化的方法及實(shí)施的可行性,并進(jìn)行了試驗(yàn)驗(yàn)證,實(shí)現(xiàn)了系統(tǒng)的優(yōu)化。
現(xiàn)有方法
目前,黑龍江移動(dòng)采用的客戶區(qū)域歸屬方法是對(duì)客戶的每日數(shù)據(jù)進(jìn)行精確匯總,將數(shù)據(jù)存放在本地?cái)?shù)據(jù)庫(kù)中,然后在月末或年末根據(jù)客戶所有數(shù)據(jù)進(jìn)行精確歸屬。目前的客戶區(qū)域化歸屬算法流程如圖1所示。
圖1 客戶區(qū)域化歸屬算法流程圖
對(duì)本省客戶先計(jì)算年末三個(gè)月的累計(jì)本地語(yǔ)音業(yè)務(wù)清單,匯總客戶在各通信小區(qū)中的累計(jì)通話次數(shù)、通話時(shí)長(zhǎng),并歸屬到對(duì)應(yīng)的片區(qū)中,作為初始化數(shù)據(jù)。
每月對(duì)當(dāng)月新入網(wǎng)的客戶按照通話次數(shù)最多的原則計(jì)算歸屬的區(qū)域,將其作為入網(wǎng)當(dāng)月的歸屬區(qū)域,累計(jì)計(jì)算至三個(gè)月,完成歸屬。
上述傳統(tǒng)方法存在一些不足,主要表現(xiàn)在以下方面。
1.歸屬時(shí)間代價(jià)過(guò)高:整個(gè)客戶歸屬過(guò)程需要對(duì)原始海量數(shù)據(jù)進(jìn)行多次掃描,歸屬過(guò)程的時(shí)間代價(jià)過(guò)高,會(huì)影響其它可能的業(yè)務(wù)系統(tǒng)運(yùn)行。
2.歸屬的空間代價(jià)過(guò)高:用于客戶歸屬的所有數(shù)據(jù)都需保存在本地?cái)?shù)據(jù)庫(kù)中。數(shù)據(jù)是海量的,并且隨時(shí)間會(huì)不斷增長(zhǎng),因此傳統(tǒng)的方法會(huì)對(duì)磁盤的容量帶來(lái)巨大挑戰(zhàn)。
3.先驗(yàn)知識(shí)利用不足:絕大部分客戶的頻繁活動(dòng)區(qū)域相對(duì)固定且較小,現(xiàn)有方法精確地計(jì)算了客戶的所有活動(dòng)區(qū)域,沒(méi)有很好地利用先驗(yàn)知識(shí),從而導(dǎo)致算法的時(shí)空代價(jià)極高。
客戶區(qū)域化歸屬
針對(duì)已有方法的不足,筆者提出一套有效計(jì)算客戶歸屬的方案。該方案主要是基于先進(jìn)的數(shù)據(jù)流分析技術(shù)和抽樣技術(shù)的基礎(chǔ)上,提出了時(shí)空代價(jià)有效的在線客戶歸屬方案,并且給出了實(shí)驗(yàn)驗(yàn)證,可以有效解決當(dāng)前客戶區(qū)域化歸屬過(guò)程中所遇到的難題,具有很高的市場(chǎng)應(yīng)用和推廣價(jià)值。
1.?dāng)?shù)據(jù)流技術(shù)
許多應(yīng)用中,數(shù)據(jù)以流的形式存在,而不是存放在數(shù)據(jù)庫(kù)中,如股票交易數(shù)據(jù),Web服務(wù)器日志,通話記錄等等。數(shù)據(jù)流環(huán)境與傳統(tǒng)數(shù)據(jù)庫(kù)環(huán)境的區(qū)別表現(xiàn)在兩個(gè)方面:數(shù)據(jù)流數(shù)據(jù)量非常巨大、且僅允許訪問(wèn)一次;查詢結(jié)果需要實(shí)時(shí)響應(yīng)。數(shù)據(jù)流技術(shù)適用于解決數(shù)據(jù)海量且實(shí)時(shí)性要求極高的數(shù)據(jù)環(huán)境。
區(qū)域化營(yíng)銷系統(tǒng)環(huán)境是一個(gè)非常典型的數(shù)據(jù)流環(huán)境,其每日從Boss系統(tǒng)取批價(jià)之后的話單,并進(jìn)行加載入庫(kù),在完成日加載之后,進(jìn)行匯總,最終完成當(dāng)日的統(tǒng)計(jì)。從開(kāi)始加載,到最終的統(tǒng)計(jì)結(jié)束,按照每批話單的抽取和加載時(shí)間、順序來(lái)看,恰好形成數(shù)據(jù)流的環(huán)境。
客戶歸屬的目的是找到客戶通話次數(shù)最頻繁的一個(gè)區(qū)域,該區(qū)域的通話次數(shù)占總通話次數(shù)的比例相對(duì)其他區(qū)域來(lái)說(shuō)較大。因此,根據(jù)這個(gè)特點(diǎn),結(jié)合上述的歸屬理論,提出計(jì)算客戶歸屬的方法,該方法如下所示。(一個(gè)桶記錄客戶的一個(gè)通話區(qū)域)
①分析歷史數(shù)據(jù),統(tǒng)計(jì)客戶通話最頻繁區(qū)域的通話次數(shù)占總通話次數(shù)的比例F,即最頻繁區(qū)域的通話頻率F。
②根據(jù)①中的通話頻率F,計(jì)算出每個(gè)客戶歸屬所需的桶的個(gè)數(shù)K:K>=1/F-1。每個(gè)桶用來(lái)記錄一個(gè)通話區(qū)域及其相應(yīng)的通話次數(shù)。
③根據(jù)Top-K計(jì)算方法,對(duì)每個(gè)客戶的每條通話記錄進(jìn)行計(jì)算。
④在每個(gè)客戶的K個(gè)桶中,找出次數(shù)最多的桶對(duì)應(yīng)的區(qū)域,即為所求。
該算法是一個(gè)近似算法:第1步通過(guò)分析客戶歷史數(shù)據(jù),統(tǒng)計(jì)出客戶最頻繁區(qū)域的通話次數(shù)占總通話次數(shù)的比例,不同用戶這個(gè)比例不同;第2步通過(guò)第一步的通話頻率F和公式K>=1/F-1計(jì)算出至少需要為每個(gè)用戶設(shè)置多少個(gè)桶,才能計(jì)算出客戶通話的最頻繁區(qū)域。這里桶個(gè)數(shù)的計(jì)算方法主要是依據(jù)Top-K理論反推出來(lái)的。算法的3,4步比較直觀,通過(guò)運(yùn)用算法2計(jì)算所有的通話記錄,最后找到最頻繁的區(qū)域。
另外,對(duì)于新客戶,由于沒(méi)有歷史信息可以利用,必須單獨(dú)為它們?cè)O(shè)定桶的個(gè)數(shù)。筆者通過(guò)統(tǒng)計(jì)用戶的信息發(fā)現(xiàn),絕大部分用戶的桶的個(gè)數(shù)不超過(guò)一個(gè)較小的常數(shù)M,因此對(duì)于新客戶,可根據(jù)以往數(shù)據(jù)分析出M的大約值,這樣就可以保證以極小的錯(cuò)誤率計(jì)算出客戶的最頻繁區(qū)域。
2.抽樣技術(shù)
客戶區(qū)域歸屬任務(wù)本質(zhì)上就是要對(duì)數(shù)據(jù)流進(jìn)行摘要。數(shù)據(jù)流的實(shí)時(shí)性特點(diǎn)要求摘要算法必須有較小的時(shí)間復(fù)雜度,而數(shù)據(jù)流的無(wú)限性特點(diǎn)又限制了算法的空間復(fù)雜度不能過(guò)高。所以,在設(shè)計(jì)算法的時(shí)候,面臨著時(shí)間復(fù)雜度和空間復(fù)雜度之間的權(quán)衡。
以上權(quán)衡是在數(shù)據(jù)集不變的情況下發(fā)生的。如果能夠得到一個(gè)足以代表該數(shù)據(jù)集的子集的話,那么,盡管算法并沒(méi)有從時(shí)間復(fù)雜度和空間復(fù)雜度上得到優(yōu)化,但縮小數(shù)據(jù)子集帶來(lái)的處理時(shí)間和耗費(fèi)空間減少是不可忽視的。我們?cè)谘芯恐,采用了抽樣技術(shù),來(lái)有效地縮小數(shù)據(jù)子集。
①數(shù)據(jù)流抽樣
采樣算法與其他精確算法相比,其優(yōu)勢(shì)是在給定內(nèi)存大小的條件下,抽樣算法能夠基于一定錯(cuò)誤上界獲得并存儲(chǔ)能代表整個(gè)總體的數(shù)據(jù)子集,而由于數(shù)據(jù)集的減少帶來(lái)的處理時(shí)間和使用空間的減少特點(diǎn)是精確算法所沒(méi)有的。另外,由于數(shù)據(jù)流的無(wú)限性,采樣算法會(huì)出現(xiàn)內(nèi)存占用空間大于給定內(nèi)存大小的時(shí)候,一方面保持了樣本集前后一致的采樣特性,另一方面為更多的數(shù)據(jù)騰出空間。
②計(jì)數(shù)采樣方法
由于計(jì)數(shù)采樣是有偏采樣,因此其算法在改變采樣閾值的同時(shí)必須保證該有偏采樣的一致性。我們可以按照如下步驟設(shè)計(jì)采樣算法。
首先,給定內(nèi)存大小m,然后按照五個(gè)步驟進(jìn)行:第一,初始化抽樣閾值г=1;第二,如果樣本值不存在于樣本集中,則以1/г的抽樣概率增加一個(gè)新的單元組到樣本集;第三,否則,執(zhí)行下面兩項(xiàng)中的一項(xiàng):把樣本集的某一個(gè)單元組轉(zhuǎn)換為二元組,或者把樣本集的某一個(gè)二元組中的計(jì)數(shù)加1;第四,如2、3執(zhí)行以后,內(nèi)存占用空間>m,那么把抽樣閾限從г提高到г’,然后對(duì)樣本集每一個(gè)樣本值的第一個(gè)樣本點(diǎn)以г/г’概率隨機(jī)篩選,對(duì)剩下的樣本點(diǎn)以1/г’概率隨機(jī)篩選;第五,重復(fù)第2個(gè)步驟。
3.歸屬方案
①基于內(nèi)存的歸屬
處理過(guò)程:首先將所有客戶桶個(gè)數(shù)信息從外存讀入內(nèi)存,建立相應(yīng)數(shù)據(jù)結(jié)構(gòu),然后依據(jù)歸屬算法、根據(jù)當(dāng)日的數(shù)據(jù)對(duì)客戶信息進(jìn)行更新,并進(jìn)行抽樣計(jì)算,處理完成后將所有客戶信息寫回外存。
過(guò)程描述如圖2所示。
圖2 基于內(nèi)存的客戶歸屬處理過(guò)程
②方案驗(yàn)證
在黑龍江移動(dòng)真實(shí)數(shù)據(jù)集之上,筆者對(duì)方案進(jìn)行了實(shí)驗(yàn)驗(yàn)證,證明所提出的方案在實(shí)際運(yùn)營(yíng)環(huán)境中的可行性和優(yōu)越性。
在實(shí)驗(yàn)數(shù)據(jù)方面,以黑龍江移動(dòng)2007年6月份話單月輕度匯總表和2007年7月1日語(yǔ)音GSM話單數(shù)據(jù)表為例。
6月份輕度匯總表包含以下屬性:統(tǒng)計(jì)月份,地區(qū)代碼,電話號(hào)碼,話單類型,漫游類型,呼叫時(shí)段,交換機(jī),lac代碼,cell代碼,呼叫次數(shù),呼叫分鐘,計(jì)費(fèi)時(shí)長(zhǎng),呼叫時(shí)長(zhǎng),費(fèi)用,優(yōu)惠費(fèi)用,約3億條記錄。
7月1日話單數(shù)據(jù)表包含以下屬性:清單類型,清單入庫(kù)日期,地區(qū)代碼,主叫號(hào)碼,主被叫,手機(jī)串碼,對(duì)端類型,對(duì)端號(hào)碼,撥打類型,通話日期,通話時(shí)間,呼叫時(shí)段,呼叫時(shí)長(zhǎng),計(jì)費(fèi)時(shí)長(zhǎng),呼叫分鐘,交換機(jī),lac代碼,cell代碼,對(duì)端cell,對(duì)端lac,漫游類型,漫游地,對(duì)端接入地,對(duì)端漫游地,長(zhǎng)途類型,基本費(fèi)優(yōu)惠基本費(fèi),約5300萬(wàn)條記錄。
在實(shí)驗(yàn)平臺(tái)方面,硬件環(huán)境為CPU:Intel(R)Xeon(R)CPU5110@ 1.60GHz(dual core);Memory:8 GB;Hard Disk:SCSI 300G x 2。軟件環(huán)境為:操作系統(tǒng):Debian GNU/Linux;數(shù)據(jù)庫(kù)系統(tǒng):postgresql 8.1;開(kāi)發(fā)語(yǔ)言:Java JDBC。
基于內(nèi)存的歸屬方案驗(yàn)證目標(biāo)為基于內(nèi)存的歸屬方案的時(shí)間和空間代價(jià)。
實(shí)驗(yàn)步驟主要有4個(gè)。
步驟1.分析表nm_voice200706,統(tǒng)計(jì)客戶通話最頻繁區(qū)域的通話次數(shù)占總通話次數(shù)的比例F,即最頻繁區(qū)域的通話頻率F。采用將數(shù)據(jù)庫(kù)表讀入內(nèi)存的方式來(lái)執(zhí)行,這樣做的效率比較高。
步驟2.根據(jù)1中的通話頻率F,計(jì)算出每個(gè)客戶歸屬所需的桶的個(gè)數(shù)K:K>=1/F-1。每個(gè)桶用來(lái)記錄一個(gè)通話區(qū)域及其相應(yīng)的通話次數(shù)。然后將客戶桶個(gè)數(shù)信息寫入一個(gè)數(shù)據(jù)庫(kù)表中。
步驟3.對(duì)表vc20070701的數(shù)據(jù)進(jìn)行處理:按小時(shí)對(duì)數(shù)據(jù)進(jìn)行處理。首先將步驟2中客戶桶個(gè)數(shù)信息讀入內(nèi)存,在內(nèi)存為每個(gè)用戶建立相應(yīng)數(shù)據(jù)結(jié)構(gòu)。接著對(duì)vc200707011小時(shí)的記錄進(jìn)行順次處理。如果該記錄對(duì)應(yīng)的客戶已在內(nèi)存中有相應(yīng)信息,表示該客戶的桶個(gè)數(shù)已經(jīng)確定,相應(yīng)內(nèi)存單元加1;如果該記錄對(duì)應(yīng)的客戶在內(nèi)存中無(wú)相應(yīng)信息,則為該客戶創(chuàng)建數(shù)據(jù)結(jié)構(gòu),設(shè)客戶的桶個(gè)數(shù)為M,然后按Top-K算法對(duì)該記錄進(jìn)行處理。
步驟4.按小時(shí)處理完vc20070701的所有記錄后,將內(nèi)存中的客戶信息寫入數(shù)據(jù)庫(kù)表中。
我們從實(shí)驗(yàn)結(jié)果中得出,系統(tǒng)處理一天數(shù)據(jù)每小時(shí)所需的時(shí)間平均為5分鐘,內(nèi)存占用量不超過(guò)15G。
結(jié)束語(yǔ)
本算法在黑龍江移動(dòng)公司的真實(shí)數(shù)據(jù)基礎(chǔ)上,以課題的形式進(jìn)行了討論,依據(jù)數(shù)據(jù)流、滑動(dòng)窗及抽樣理論,筆者對(duì)于目前的系統(tǒng)算法進(jìn)行了研究和探討,試驗(yàn)結(jié)果,超出預(yù)期想象,對(duì)于系統(tǒng)日后的建設(shè),具有積極的意義,具體體現(xiàn)在幾個(gè)方面。
1.降低系統(tǒng)消耗,節(jié)約空間資源。
本算法剔除了現(xiàn)有系統(tǒng)中不必要的計(jì)算,且可通過(guò)抽樣進(jìn)行數(shù)據(jù)的精簡(jiǎn),能夠降低現(xiàn)有系統(tǒng)的空間占用情況及與其他程序的性能消耗情況。
2.能夠大大提高系統(tǒng)處理速度,為將來(lái)實(shí)現(xiàn)各地市的個(gè)性化的歸屬計(jì)算奠定了基礎(chǔ)。
通過(guò)增量的計(jì)算,取代現(xiàn)有的全量計(jì)算;通過(guò)內(nèi)存計(jì)算,取代現(xiàn)有的數(shù)據(jù)庫(kù)中的運(yùn)算,從而大大提高了運(yùn)算速度,使系統(tǒng)能夠留出大量時(shí)間進(jìn)行不同規(guī)則的屬地化運(yùn)算,如部分地市需要考慮繳費(fèi)的權(quán)重,部分地市需要考慮通話時(shí)段或者節(jié)假日的權(quán)重,奠定了系統(tǒng)后續(xù)進(jìn)行類似運(yùn)算的基礎(chǔ)。
3.更好地利用了已有的歸屬知識(shí),使信息能夠得到積累。
通過(guò)對(duì)歷史歸屬信息的分析,并結(jié)合到現(xiàn)有算法中,過(guò)去的信息有效地得到了繼承,避免現(xiàn)有算法中,一旦完成最終歸屬當(dāng)年就不再變化的弊端,使分析人員能夠更好地把握市場(chǎng)。
作者:劉剛 焦麗紅 遲建德 孫德志 王敬堯 來(lái)源:通信世界周刊