移動湯人杰:建設(shè)分布式的數(shù)據(jù)挖掘平臺

2016年4月20日,“中國信息通信大數(shù)據(jù)大會”于北京召開。在本次大會上,工業(yè)和信息化部通信發(fā)展司司長聞庫、中國通信信息化部副總經(jīng)理兼CTO范濟(jì)安、中國電信云計算中心主任趙慧玲等嘉賓出席了本次大會。

以下是中國移動浙江分公司資深架構(gòu)師湯人杰演講實錄:

浙江移動 湯人杰

浙江公司以前有信息技術(shù)部和網(wǎng)管中心兩大部分,分別建了若干個大數(shù)據(jù)平臺,每個部門都建了若干個,基本每個應(yīng)用一個。建了無數(shù)多的平臺,這里就存在一個很大的問題,數(shù)據(jù)冗余,

我們可以想象一下光我們我們以往的數(shù)據(jù)一天有100G,固網(wǎng)數(shù)據(jù)有600多T,地域數(shù)據(jù)也很多,表接口有幾千張,我們反復(fù)抽取四五遍,會帶來質(zhì)量不高,數(shù)據(jù)標(biāo)準(zhǔn)化程度也會很低,這樣反過來制約了應(yīng)用的創(chuàng)新。因此,我們需要借助云計算,借助PAAS技術(shù),把所有的大數(shù)據(jù)平臺整合成一個具備多租戶能力的PAAS平臺。

數(shù)據(jù)的匯聚,我們要從傳統(tǒng)的以結(jié)構(gòu)化數(shù)據(jù)為主轉(zhuǎn)向多結(jié)構(gòu)化。如果真的沒有結(jié)構(gòu)的話,任何東西都識別不出來,就算文本也是有結(jié)構(gòu)的,如何從標(biāo)準(zhǔn)的二維表結(jié)構(gòu)展現(xiàn)多種結(jié)構(gòu)的識別,數(shù)據(jù)的抽取,這是我們在技術(shù)構(gòu)建上要考慮的問題。

另外一塊,比如UL,我們?nèi)绾瓮ㄟ^UL最后來獲取到用戶的行為偏好呢?這里涉及到很復(fù)雜的技術(shù),比如通過某種分類的算法,了解這篇文章到底是什么樣的語義,包括有些字段語言的識別。另外這只是我們講的數(shù)據(jù)的抽取技術(shù),或者數(shù)據(jù)的趴取技術(shù)。數(shù)據(jù)獲取到了怎么去處理?我們數(shù)據(jù)的處理,運營商大多采用的技術(shù)是小型機加存儲的方式。你沒有很好的橫向拓展,因為機器達(dá)到頂配了,速度也不夠快。解決方案是什么呢?很簡單,就一句話,分布式,就是云。要講到分布式,我們必須講CAP理論,在CAP理論里面,我們認(rèn)為在網(wǎng)絡(luò)發(fā)生分裂的時候,要加個前提條件,在這種條件下,我們CAP只能三者選其二,大多數(shù)是選CA的,你選擇了P,分區(qū)容忍性,必然要放棄一致性。這就帶來了什么呢?我們說傳統(tǒng)的一種單一的數(shù)據(jù)處理的架構(gòu)要轉(zhuǎn)化成三種架構(gòu)同時針對不同的業(yè)務(wù)層,比如我們會在數(shù)據(jù)的知識分布快速的交互式查詢的情況下,我們有個APP的數(shù)據(jù)庫。通過扁平化的分布式的架構(gòu),來提升數(shù)據(jù)的處理能力,打破數(shù)據(jù)存儲和數(shù)據(jù)處理的瓶頸。

另外一塊,大數(shù)據(jù)整個分析思維會有一個變化。從傳統(tǒng)的樣本的分析方法轉(zhuǎn)變到我們對全局?jǐn)?shù)據(jù)對特定問題的分析,通過分析,我們會構(gòu)建一個客戶畫像,這個客戶畫像可能是我們很基礎(chǔ)的一個共享的模式。同時我們會引入大量的分析算法,除了傳統(tǒng)的回歸、聚類,包括我們一些傳統(tǒng)的分析方法以外,比如會引入時序分析,對用戶經(jīng)過的基站經(jīng)過時序分析。比如做六度很分析,我們做了兩度的交往圈的分析,來分析一些傳播的問題。

我們在信息展現(xiàn)上也會做一些突破,用更好的形式,更交互式的,更讓人體驗更好的形式來進(jìn)行信息的展現(xiàn)?偟膩碇v,我們的規(guī)劃思路就是12個字,數(shù)據(jù)整合、能力共享、應(yīng)用創(chuàng)新。實現(xiàn)我們數(shù)據(jù)統(tǒng)一的開放共享,這個統(tǒng)一的開放共享必然要實現(xiàn)我PAAS層的資源整合,再構(gòu)建能力層的開放和應(yīng)用層的開放。

我們來看我們平臺具體是怎么建設(shè)的,我們浙江移動的平臺今年主要是PAAS層的建設(shè),主要是兩塊,一塊是PAAS層的建設(shè),一塊是BUS層的建設(shè),PAAS分了三層,我們共建了一個數(shù)據(jù)交換中心,包括內(nèi)部的數(shù)據(jù)采集和數(shù)據(jù)趴取,數(shù)據(jù)進(jìn)來以后,我們通過數(shù)據(jù)處理層,數(shù)據(jù)處理層主要建立了兩個大的資源池,一個是在線資源池,一個是離線資源池,在線通過流處理技術(shù),我們做了一些創(chuàng)新,我們用了開源的數(shù)據(jù)庫,把它改造成可以動態(tài)的分布式的形態(tài)。因為我數(shù)據(jù)庫內(nèi)存可能不夠,結(jié)合流計算的技術(shù)。在離線資源池主要用了MPP和Hadoop,在上層加了一層數(shù)據(jù)展現(xiàn)層,讀寫分析,把分析結(jié)果沉淀到上面的數(shù)據(jù)開放層。

我們今年主要做的就是PAAS這一層,把所有的硬件資源,所有的技術(shù)組件全部都整合了。我們認(rèn)為我們底層都是基于容器技術(shù),統(tǒng)一的資源調(diào)度,同一套的技術(shù),把資源全部經(jīng)過多租戶的整合。上面我們引入的數(shù)據(jù),構(gòu)建了DAAS,是統(tǒng)一的一套數(shù)據(jù)模式,后續(xù)的應(yīng)用開發(fā)基于統(tǒng)一的數(shù)據(jù)模型,把數(shù)據(jù)的問題解決了。應(yīng)用一定是基于問題的,同時我們有云管理平臺,包括調(diào)度,包括運維,運維自動化我們參考了藍(lán)鯨。我們內(nèi)部到底是使用了一些什么樣的技術(shù),比如我們是兩部分,一個是爬蟲,一個是分子檢索,流處理平臺承載了客流分析,這是政法委要求的。包括我們的精確營銷,我們整個Hadoop平臺承載了三億的融客模型,在數(shù)據(jù)讀寫分離這一層,我們主要采用了一些多維的數(shù)據(jù)庫。這是我們整體大的數(shù)據(jù)流向,我們同時支撐在線和離線的數(shù)據(jù),包括我們數(shù)據(jù)挖掘可以同時支持在線和離線。

我們講一下我們這次做了采集,我們OBM3一共1600多個系統(tǒng),我們剛剛講了,我們以往的數(shù)據(jù)一天將近有100T,固網(wǎng)的數(shù)據(jù)有600多T,地域系統(tǒng)有三十多個系統(tǒng),固網(wǎng)目前還有一部分沒有采集,確實是量太大了,平臺需要擴(kuò)容。我們在統(tǒng)一建模里面參考了規(guī)范,覆蓋了參與人、服務(wù)、資源、營銷管理等七個主題。為對外變現(xiàn)夯實了基礎(chǔ),我們這個平臺的建設(shè)有如下幾個亮點,第一個亮點,我們是在運營商里面首次實現(xiàn)了基于容器技術(shù)進(jìn)行資源隔離的數(shù)據(jù)中心級資源調(diào)度。第二,我們在運營商里面,在大數(shù)據(jù)組建上我們首次了完全字段式的數(shù)據(jù)隔離,整個PAAS平臺每個租戶都是可以實現(xiàn)字段式的數(shù)據(jù)隔離。我們首次實現(xiàn)了浙江移動三域數(shù)據(jù)大融合,同時提供了SAAS、PAAS、DAAS三個層面的平臺開放。我們構(gòu)建了我們的安全網(wǎng)端,和合作方合作,通過一系列的審計,一系列的安全網(wǎng)關(guān),對外輸出我們的變現(xiàn)能力。

這是強調(diào)我們的運維,我們的運維完全也是實時的,基于流式的數(shù)據(jù)挖掘。我們接入所有的數(shù)據(jù),進(jìn)行一個數(shù)據(jù)的傳輸,我們對數(shù)據(jù)的指標(biāo)做了關(guān)聯(lián)分析,是用了機器學(xué)習(xí)和實時回歸的算法,不是離線的回歸,是實時的回歸算法,我們預(yù)測指標(biāo)之間的關(guān)系,并且我們分析故障之間的關(guān)聯(lián)關(guān)系。這是大數(shù)據(jù)平臺數(shù)據(jù)資產(chǎn)的架構(gòu),數(shù)據(jù)平臺所有的調(diào)度和所有的數(shù)據(jù),我們有統(tǒng)一的原數(shù)據(jù)管理庫,所有的關(guān)系會在管理庫統(tǒng)一展現(xiàn)。這是我們講了后續(xù)演進(jìn)的技術(shù)思路,目前有部分組件還沒有納入動態(tài)的調(diào)度,我們在考慮將整個大數(shù)據(jù)和網(wǎng)關(guān)支撐打通,實現(xiàn)整體調(diào)度。絕大部分國內(nèi)的互聯(lián)網(wǎng)公司,哪怕是BAT,包括甚至是谷歌,谷歌資源利用率是最高的,也只有二三十,運營商大部分是十都不到,我們怎么把資源利用率大幅提升。第二我們要推動建立一個物理模型,同時要深化PAAS能力,資源可以無縫調(diào)度,大數(shù)據(jù)為什么不可以呢?我們能不能把大數(shù)據(jù)也實現(xiàn)一鍵式的分布?能不能引進(jìn)機器學(xué)習(xí),甚至像谷歌一樣做深度學(xué)習(xí),我們也去利用更好的方法,來解決廣告營銷推薦的一個準(zhǔn)確性的問題。

另外一塊,還有安全的問題,我們大量的對外變現(xiàn)應(yīng)用開始做起來。我們怎么樣保證這個數(shù)據(jù)資產(chǎn)的安全?最后最智慧的是運營體系,一定要用大數(shù)據(jù)去解決大數(shù)據(jù)平臺的問題。因為以后將來擴(kuò)展下來,幾千上萬臺機器,你靠現(xiàn)在這種運維模式難以維持,一定用大數(shù)據(jù)人工智能的方式去自動發(fā)現(xiàn)問題,甚至是自愈。

這邊我們就講我們后續(xù)將如何引進(jìn)第三方進(jìn)行邁向大數(shù)據(jù)的生態(tài),在大數(shù)據(jù)匯聚里面,我們會研究和實現(xiàn)多數(shù)據(jù)源,引入多方的數(shù)據(jù),以大數(shù)據(jù)的形式對外提供,實現(xiàn)各方的數(shù)據(jù)深維和增值。在數(shù)據(jù)轉(zhuǎn)換方面,我們和第三方合作,在EPI識別、選址應(yīng)用等方面提供優(yōu)質(zhì)的組件,在大數(shù)據(jù)變現(xiàn)方面,我們攜手第三方的公司,以大數(shù)據(jù)為基礎(chǔ),與移動一起參與社會化大數(shù)據(jù)的運營,積極拓展行業(yè)應(yīng)用,實現(xiàn)大數(shù)據(jù)變現(xiàn),樹立大數(shù)據(jù)的標(biāo)桿企業(yè)形象。

以上不代表通信世界觀點。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息