從比特搬運工到大數(shù)據(jù)運營者

  作者:工業(yè)和信息化部電信研究院互聯(lián)網(wǎng)中心主任何寶宏

  有人說,大數(shù)據(jù)就像20世紀的石油那樣,是一種戰(zhàn)略資源。但20世紀之前的歷史長河中,石油根本不是戰(zhàn)略資源,甚至連一般性的資源也算不上。改變石油命運的,是100多年前內(nèi)燃機的發(fā)明。

  走進“第四個”大數(shù)據(jù)時代

  現(xiàn)在所說的大數(shù)據(jù),都是指“數(shù)字化”的信息。如果把“數(shù)據(jù)巨大”、“類型繁多”、“單位價值下降”和“處理及時”的非數(shù)字化的信息也認為是大數(shù)據(jù),就會發(fā)現(xiàn)在人類歷史上已經(jīng)多次經(jīng)歷過 “大數(shù)據(jù)”時代,而且每一次“大數(shù)據(jù)”時代,都導致人類社會的巨大變革。

  第一次是語言的發(fā)明。語言可以讓思想交流融合,讓分工合作成為可能。但隨著“語言大數(shù)據(jù)”的發(fā)展和應用,語言作為唯一載體的缺點開始顯現(xiàn)。第一,地理范圍有限,經(jīng)常僅在部落內(nèi)傳遞;第二,對象范圍有限;第三,信息容易失真;第四,信息容易失傳。于是,彌補“語言大數(shù)據(jù)”缺陷的新信息技術——“文字大數(shù)據(jù)”時代開始出現(xiàn)和繁榮。

  相對語言,無論是圖形文字、聲音文字還是數(shù)學符號,可以承載的信息量和信息類型更多,傳播范圍可以更廣、更加準確和更加便于傳承。有了文字,無法長久保存和必須同步傳播的口頭信息,變成了“永久性”、可異步存儲的符號記錄。

  文字(包括數(shù)學符號)的產(chǎn)生和傳播,使生產(chǎn)力又一次得到了飛躍,并且催生了歷法、兵法、法律和禮儀等,加速了貿(mào)易的發(fā)展,人類又一次被淹沒在了“大數(shù)據(jù)”的洪流中。文字是“大數(shù)據(jù)”的載體,但文字的載體是烏龜殼、羊皮和竹簡,以及后來發(fā)明的紙張等,相對仍然比較昂貴。另外,這些類型的書籍需要靠人工抄寫或雕刻,費時費力而且常會出現(xiàn)錯誤,因此書籍仍然難以平民化,“文字大數(shù)據(jù)”傳播的范圍仍然很有限。

  于是讓信息可以用“工業(yè)化”的方式存儲和傳播的印刷術出現(xiàn)了。印刷術結(jié)束了手稿時代,讓文化廣為傳播,再次擴充了信息的數(shù)量和組織,“大數(shù)據(jù)”時代又一次來臨。印刷術導致書籍和知識“泛濫”,直接引發(fā)了人類社會的巨大變革。

  隨著工業(yè)革命的推進,產(chǎn)生了更大量和更多類型的數(shù)據(jù)處理需求,導致了信息采集、保存和處理作為獨立的一個行業(yè)——“信息產(chǎn)業(yè)”的出現(xiàn)和繁榮。電力革命后,整個社會經(jīng)濟活動的重點,從材料的使用轉(zhuǎn)移到了對“大數(shù)據(jù)”的使用,企業(yè)也在紛紛取消內(nèi)部動力生產(chǎn)部門的同時增加了信息處理部門。而近年來隨著智能手機、平板電腦、個人電腦、數(shù)碼相機、數(shù)字攝像機、POS機以及各種各樣的傳感器等終端逐步接入互聯(lián)網(wǎng),氣候、天文、地質(zhì)、生物、基因、軍事、商業(yè)和醫(yī)療等行業(yè)數(shù)據(jù)的普遍數(shù)字化和網(wǎng)絡化,以及博客、播客( 視頻分享 )、微博、社會化網(wǎng)絡等的爆發(fā)式增長,數(shù)據(jù)越來越“大”,人類又一次遭遇了“大數(shù)據(jù)”時代。與此同時,隨著移動互聯(lián)網(wǎng)和社交網(wǎng)絡的飛速發(fā)展,單位信息的價值快速下降,人類被淹沒在了“信息垃圾”之中。

  這次的大數(shù)據(jù)時代中,信息的產(chǎn)生、傳遞和保存不僅“工業(yè)化”了,而且“數(shù)字化”和“自動化”了,人類社會發(fā)展的核心驅(qū)動力,也從之前的“動力驅(qū)動”轉(zhuǎn)變?yōu)椤皵?shù)據(jù)驅(qū)動”。垃圾是放錯地方的寶物,因此必須誕生革命性的技術手段,將這個時代的“信息垃圾”換一個地方,換一種方式提供給我們。

  歷史上的每次“大數(shù)據(jù)”時代,對人類社會的影響都是革命性的,這次也必將會是顛覆性的。

  云計算是大數(shù)據(jù)的“內(nèi)燃機”

  數(shù)據(jù)早已有之,但一直以來是信息化的“副產(chǎn)品”,非戰(zhàn)略性資源,直到云計算的發(fā)明。云計算讓大數(shù)據(jù)應用平民化,在大數(shù)據(jù)應用在經(jīng)濟上變得可行。云計算之于大數(shù)據(jù),就像內(nèi)燃機之于石油。如果不是基于云計算的數(shù)據(jù)處理,數(shù)據(jù)再大也不是大數(shù)據(jù),只是“數(shù)據(jù)大”。

  20世紀,因為內(nèi)燃機的發(fā)明,石油上位成了戰(zhàn)略資源。從在戰(zhàn)爭中偶爾使用石油,發(fā)展到了為了石油而戰(zhàn)爭。內(nèi)燃機之于石油,就像WWW之于TCP/IP、App Store之于智能手機、大數(shù)據(jù)之于云計算一樣,都是后者的“Killer App”。

  上世紀70年代初,計算機的發(fā)展應用產(chǎn)生的“大數(shù)據(jù)”(相對那個年代的人,那個年代的工具)需要管理,于是數(shù)據(jù)庫管理技術誕生,業(yè)界開始了專業(yè)化開采數(shù)據(jù)資源的工作。當然早期的數(shù)據(jù)管理工具比較“原始”(相對現(xiàn)在),只擅長對付 “結(jié)構(gòu)化”的數(shù)據(jù)資源。

  資源的價值大小,很多時候取決于開采工具的經(jīng)濟性。人們希望找到更先進的工具,能夠管理更復雜的數(shù)據(jù)類型,從數(shù)據(jù)中提煉出更多的應用價值,就像歷史上內(nèi)燃機曾經(jīng)把石油的用途從照明擴展到動力世界那樣。

  2006年前后,業(yè)界領先的企業(yè)發(fā)明了一種叫云計算的新工具,不僅可以開采新型的數(shù)據(jù)資源(非結(jié)構(gòu)化數(shù)據(jù)),而且還發(fā)掘出了一些重要的新用途(如精準營銷、趨勢預測等)。最重要的,這種工具的成本還很低。于是業(yè)界都夢想著,用云計算這個新工具,也去淘大數(shù)據(jù)的金。

  全球云計算已發(fā)展到了理性務實的落地階段,而大數(shù)據(jù)還處于炒作階段。大數(shù)據(jù)技術還不成熟,技術解決方案還以定制為主,通用型解決方案尚不多見。大數(shù)據(jù)源還以內(nèi)部和結(jié)構(gòu)化為主,未發(fā)展到內(nèi)外結(jié)合、結(jié)構(gòu)化與非結(jié)構(gòu)化結(jié)合的階段。

  從應用看,當前的大數(shù)據(jù)應用以漸進改善型業(yè)務為主,以程序化營銷和個人大數(shù)據(jù)應用最為成功,其他“革命型”應用尚不多見。大數(shù)據(jù)應用在全球的發(fā)展,已形成了“互聯(lián)網(wǎng)公司領導、開源社區(qū)擴散和ICT制造商產(chǎn)品化”的三階段或三層次現(xiàn)象。

  電信業(yè)需實現(xiàn)數(shù)據(jù)資產(chǎn)化

  電信運營商擁有海量數(shù)據(jù)。電信網(wǎng)的數(shù)據(jù)流量已超過了全部流量的99%,另外電信運營商還擁有海量的用戶數(shù)據(jù)、信令數(shù)據(jù)、日志數(shù)據(jù)、流量數(shù)據(jù)、位置數(shù)據(jù)等。電信業(yè)發(fā)展大數(shù)據(jù),機遇和挑戰(zhàn)并存。

  與互聯(lián)網(wǎng)企業(yè)相比,電信業(yè)大數(shù)據(jù)資源在真實性和廣度方面優(yōu)勢明顯,擁有真實的用戶身份錨點(姓名、電話等)、用戶賬戶信息和用戶行為信息。而作為比特管道的電信公司只能在“路邊”看用戶的流量去了哪里,哪家網(wǎng)店的流量多大,剩下的就是政策不允許知道的了,因此電信業(yè)的大數(shù)據(jù)也是粗粒度的。

  但二者的這種比較優(yōu)勢是動態(tài)變化的,互聯(lián)網(wǎng)企業(yè)正在通過搶占更多入口、向基礎設施滲透和建立大數(shù)據(jù)聯(lián)盟等策略獲取更多數(shù)據(jù),以彌補自己的短板。

  全球領先電信運營商的大數(shù)據(jù)應用,目前主要是對內(nèi)優(yōu)化業(yè)務,對外合作提供服務或提供商業(yè)的數(shù)據(jù)服務,并以位置服務居多。中國的電信運營商也紛紛效仿,但目前還是以內(nèi)部優(yōu)化為主,偶有外部合作,與國外相比還差一個量級。

  電信業(yè)發(fā)展大數(shù)據(jù)時,微觀層面存在以下短板:一是網(wǎng)絡強而自身IT設施發(fā)展滯后,尤其是大數(shù)據(jù)需要依賴的云計算基礎設施尚不完善;二是電信業(yè)的傳統(tǒng)產(chǎn)業(yè)鏈是一個開環(huán),研發(fā)等要靠外部力量,而互聯(lián)網(wǎng)公司的大數(shù)據(jù)應用自身就是閉環(huán);三是電信運營商的海量數(shù)據(jù)目前還分散在很多部門和地區(qū),缺乏整合,是“數(shù)據(jù)大”而不是大數(shù)據(jù);四是人才缺乏,尤其是IT人才和高端人才;五是隱私保護政策限制,政府和社會對電信運營商的數(shù)據(jù)隱私保護要求,一直以來就高于互聯(lián)網(wǎng)企業(yè),是不對稱的“管制”。

  電信業(yè)發(fā)展大數(shù)據(jù)也意味著,首先需從追求精確、高可靠性等傳統(tǒng)觀念轉(zhuǎn)向追求效率和成本,即所謂的“去電信化”。在通信資源昂貴而稀缺的時代,電信業(yè)以提 高通 信資源利用率為核心目標,創(chuàng)造了繁榮,也創(chuàng)造出了“電信級”的概念。ATM、軟交換、NGN、IMS、IP 電信網(wǎng)等技術或概念,都以資源稀缺為前提的,它們都忘記了摩爾定律的存在,導致處境尷尬。相反,不以浪費資源“為恥”的IP、以太網(wǎng)、Web技術,卻因為摩爾定律而大行其道,因為它們更簡單,更有效率(即便是看似存在資源浪費的現(xiàn)象)。

  其次,大數(shù)據(jù)需要電信業(yè)的思維革命。大數(shù)據(jù)強調(diào)的是從“流程電子化”轉(zhuǎn)向“數(shù)據(jù)資產(chǎn)化”,之前是信息化為傳統(tǒng)的流程和管理服務,現(xiàn)在是以數(shù)據(jù)資產(chǎn)為核心重構(gòu)傳統(tǒng)的流程和管理。電信業(yè)如何從重資產(chǎn)公司,轉(zhuǎn)型成輕資產(chǎn)的大數(shù)據(jù)公司,尚需進一步探索。

  第三,電信公司需要以互聯(lián)網(wǎng)開放、共享和合作的思維發(fā)展大數(shù)據(jù)業(yè)務。第一階段需要做好內(nèi)部數(shù)據(jù)的整合和應用工作,將“數(shù)據(jù)大”發(fā)展到以自用為主的大數(shù)據(jù)應用;第二階段與其他企業(yè)的大數(shù)據(jù)源互通有無,兩兩或多方合作共享,讓數(shù)據(jù)的交換和合作產(chǎn)生更大價值;第三階段,爭取從大數(shù)據(jù)的比特搬運工,成長為大數(shù)據(jù)的運營者和服務者。

  (大數(shù)據(jù)百科)大數(shù)據(jù)的發(fā)展歷程

  一直以來,不斷增多的數(shù)據(jù)都是一項挑戰(zhàn)。19世紀末,人口普查員不知道如何統(tǒng)計和分類快速增長的美國人口。1890年的人口普查活動促使美國統(tǒng)計學家赫爾曼;魻柸鹚拱l(fā)明了電動讀卡器,由此開創(chuàng)了數(shù)據(jù)處理的新紀元,這項技術也成為 IBM 發(fā)展的基礎。

  大規(guī)模的數(shù)據(jù)信息的價值早在二戰(zhàn)時期就被美國軍方認識到了,在戰(zhàn)爭中進行了大規(guī)模的數(shù)據(jù)搜集。在大數(shù)據(jù)處理和存儲技術方面,起初主要是為了滿足軍事方面的需求。后來隨著互聯(lián)網(wǎng)技術和超級計算機的出現(xiàn),新的大數(shù)據(jù)處理問題陸續(xù)出現(xiàn),例如數(shù)據(jù)集通常大大超出了主存儲器、本地磁盤,甚至遠程磁盤的承載能力。“9.11事件后,美國政府就開始涉足大數(shù)據(jù)挖掘領域,組建了用于篩選通信、犯罪、教育、金融、醫(yī)療和旅行等記錄來識別可疑人員的大數(shù)據(jù)庫。之后又呼吁統(tǒng)一組建一個基于“網(wǎng)絡的信息共享系統(tǒng)”應對大規(guī)模數(shù)據(jù)問題。

  總的來看,對大規(guī)模信息的處理需求從根本上拉動了大數(shù)據(jù)相關技術的發(fā)展,雖然起初對大數(shù)據(jù)技術的推動力主要源于國家安全方面,例如大數(shù)據(jù)的存儲和處理技術、以及大數(shù)據(jù)分析算法的研發(fā),但最終這些技術開始廣泛應用于教育、金融、醫(yī)療等各個行業(yè)。


微信掃描分享本文到朋友圈
掃碼關注5G通信官方公眾號,免費領取以下5G精品資料

本周熱點本月熱點

 

  最熱通信招聘

  最新招聘信息