隨著移動(dòng)互聯(lián)網(wǎng)、云計(jì)算和物聯(lián)網(wǎng)的快速發(fā)展,越來(lái)越多的信息將人、事、物緊密地聯(lián)系在一起,利用信息資源描述社會(huì)活動(dòng),進(jìn)而提供客觀、準(zhǔn)確的決策依據(jù)成為信息技術(shù)應(yīng)用的新動(dòng)力,大數(shù)據(jù)技術(shù)應(yīng)運(yùn)而生。
國(guó)內(nèi)大數(shù)據(jù)產(chǎn)業(yè)仍處于發(fā)展初期
當(dāng)前正值大數(shù)據(jù)蓬勃發(fā)展的最佳時(shí)期,各行業(yè)在國(guó)內(nèi)利好政策指引下紛紛開(kāi)展數(shù)據(jù)應(yīng)用創(chuàng)新和產(chǎn)業(yè)轉(zhuǎn)型。以互聯(lián)網(wǎng)企業(yè)為代表的IT領(lǐng)域率先探索了數(shù)據(jù)驅(qū)動(dòng)發(fā)展的實(shí)踐活動(dòng),不僅面向特定行業(yè)形成了廣泛的大數(shù)據(jù)產(chǎn)品,也通過(guò)示范應(yīng)用和試點(diǎn)推廣等途徑積累了一定的大數(shù)據(jù)實(shí)踐經(jīng)驗(yàn)。
同時(shí),我們應(yīng)該客觀認(rèn)識(shí)到,目前國(guó)內(nèi)大數(shù)據(jù)產(chǎn)業(yè)仍處于發(fā)展初期,且各行業(yè)應(yīng)用水平參差不齊,電商、通信、交通、金融等信息基礎(chǔ)較強(qiáng)的細(xì)分領(lǐng)域表現(xiàn)出明顯優(yōu)勢(shì),而擁有70%以上公共信息資源的政務(wù)大數(shù)據(jù)領(lǐng)域則相對(duì)滯后。究其原因可以總結(jié)為以下兩個(gè)方面:首先,數(shù)據(jù)管理標(biāo)準(zhǔn)缺失嚴(yán)重影響了政務(wù)數(shù)據(jù)的可用性;其次,大數(shù)據(jù)的產(chǎn)業(yè)生態(tài)結(jié)構(gòu)引發(fā)了數(shù)據(jù)服務(wù)的供需不對(duì)稱現(xiàn)象。
而以技術(shù)見(jiàn)長(zhǎng)的互聯(lián)網(wǎng)企業(yè)只得投身大數(shù)據(jù)技術(shù)組件研發(fā)和基礎(chǔ)平臺(tái)構(gòu)建,缺少對(duì)實(shí)際業(yè)務(wù)場(chǎng)景的接觸和理解,其數(shù)據(jù)產(chǎn)品和服務(wù)難以準(zhǔn)確匹配數(shù)據(jù)所有者的真實(shí)生產(chǎn)需求,在供需對(duì)接上存在著錯(cuò)位現(xiàn)象。如何有效地選擇和組合數(shù)據(jù)產(chǎn)品及服務(wù),成為了數(shù)據(jù)所有者普遍面臨的困境,阻礙了數(shù)據(jù)應(yīng)用創(chuàng)新的拓展范圍和發(fā)展速度。
因此,優(yōu)先解決跨行業(yè)、跨領(lǐng)域的數(shù)據(jù)可用性低下問(wèn)題,以數(shù)據(jù)共享為根本出發(fā)點(diǎn),提供一體化的大數(shù)據(jù)服務(wù)平臺(tái),是有效應(yīng)對(duì)我國(guó)當(dāng)前數(shù)據(jù)創(chuàng)新發(fā)展過(guò)程中核心癥結(jié)的必要途徑。
推出沃云大數(shù)據(jù)一體化服務(wù)平臺(tái)
為了更好地滿足政務(wù)數(shù)據(jù)的共享開(kāi)放和行業(yè)數(shù)據(jù)的互通互融需求,聯(lián)通云數(shù)據(jù)公司圍繞“數(shù)據(jù)共享”的理念,自主設(shè)計(jì)并建設(shè)了沃云大數(shù)據(jù)一體化服務(wù)平臺(tái),形成了涵蓋數(shù)據(jù)采集、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)模型構(gòu)建和數(shù)據(jù)開(kāi)放等全生命周期處理流程的數(shù)據(jù)服務(wù)能力,為廣泛的政企客戶對(duì)接數(shù)據(jù)資產(chǎn)、進(jìn)行自主數(shù)據(jù)應(yīng)用創(chuàng)新提供了普適性的基礎(chǔ)大數(shù)據(jù)支撐環(huán)境。沃云大數(shù)據(jù)服務(wù)平臺(tái)的功能架構(gòu)如圖1所示。
圖1 沃云大數(shù)據(jù)服務(wù)平臺(tái)的功能架構(gòu)
沃云大數(shù)據(jù)平臺(tái)遵循“云數(shù)一體化”的設(shè)計(jì)理念,形成了“水平解耦、垂直并行”的數(shù)據(jù)服務(wù)框架。在水平層面上提供基礎(chǔ)設(shè)施統(tǒng)一調(diào)度能力和數(shù)據(jù)處理全流程的開(kāi)放服務(wù)能力,匹配云計(jì)算技術(shù)所公知的IaaS/PaaS/SaaS分層服務(wù)模型;在垂直層面上區(qū)隔面向數(shù)據(jù)生產(chǎn)和數(shù)據(jù)管理的平行業(yè)務(wù)線條,針對(duì)平臺(tái)上不同的用戶角色形成了數(shù)據(jù)“用管兼顧”的系統(tǒng)功能架構(gòu)。
具體來(lái)看,基礎(chǔ)設(shè)施層延續(xù)了聯(lián)通云數(shù)據(jù)公司的既有優(yōu)勢(shì),通過(guò)整合IDC機(jī)房資源、服務(wù)器、存儲(chǔ)設(shè)備、網(wǎng)絡(luò)和安全設(shè)備,基于OpenStack開(kāi)源管理框架對(duì)外提供標(biāo)準(zhǔn)的云計(jì)算IaaS/MaaS服務(wù)能力,實(shí)現(xiàn)KVM云主機(jī)、物理服務(wù)器、分布式存儲(chǔ)、VPC、虛擬安全防護(hù)等多種資源的在線交付和統(tǒng)一管理調(diào)度,便于上層大數(shù)據(jù)技術(shù)組件在異構(gòu)、混搭的硬件環(huán)境中進(jìn)行靈活部署和更廣泛地資源適配。
數(shù)據(jù)采集與處理是開(kāi)展大數(shù)據(jù)應(yīng)用的首要環(huán)節(jié)。考慮到數(shù)據(jù)來(lái)源的廣泛性和異構(gòu)性,沃云大數(shù)據(jù)平臺(tái)不僅支持通過(guò)傳統(tǒng)的FTP文件傳輸方式完成貼源數(shù)據(jù)收集,還基于Flume、Kafka等主流技術(shù)實(shí)現(xiàn)了對(duì)日志信息的抓取和流式采集,并集成了深度縱向解析等網(wǎng)絡(luò)爬蟲(chóng)功能,滿足多源數(shù)據(jù)的一站式獲取需求。為了更好地與現(xiàn)有電子政務(wù)系統(tǒng)進(jìn)行信息對(duì)接,沃云大數(shù)據(jù)平臺(tái)還提供了基于Agent或無(wú)代理模式的前置機(jī)采集方式,在符合敏感數(shù)據(jù)保護(hù)的前提下快速實(shí)現(xiàn)政務(wù)大數(shù)據(jù)的前向采集和信息抽取。
如前文所述,跨行業(yè)、跨部門(mén)數(shù)據(jù)質(zhì)量的良莠不齊是影響數(shù)據(jù)應(yīng)用的主要因素之一,沃云大數(shù)據(jù)平臺(tái)自設(shè)計(jì)之初便將數(shù)據(jù)管理納入數(shù)據(jù)加工的流程之中,根據(jù)客戶的業(yè)務(wù)數(shù)據(jù)組成和元數(shù)據(jù)結(jié)構(gòu),提供可自定義的元數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)目錄編排能力,并通過(guò)在線數(shù)據(jù)ETL工作流界面,遵循統(tǒng)一的數(shù)據(jù)管理標(biāo)準(zhǔn)完成數(shù)據(jù)格式轉(zhuǎn)換和信息一致性加工處理。利用“元數(shù)據(jù)-標(biāo)準(zhǔn)目錄-數(shù)據(jù)加工”的閉環(huán)流程,解決了跨部門(mén)、跨行業(yè)數(shù)據(jù)之間的由于規(guī)范和標(biāo)準(zhǔn)不統(tǒng)一所導(dǎo)致的數(shù)據(jù)可用性問(wèn)題。數(shù)據(jù)存儲(chǔ)層基于RDBMS和HDFS提供了結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)的混搭存儲(chǔ)能力,支持前端采集到的數(shù)據(jù)按照存儲(chǔ)類型進(jìn)行文件級(jí)或數(shù)據(jù)庫(kù)表級(jí)的靈活訪問(wèn)。
數(shù)據(jù)存儲(chǔ)的最終目的是服務(wù)于數(shù)據(jù)共享交換,因此沃云大數(shù)據(jù)平臺(tái)通過(guò)貼源業(yè)務(wù)庫(kù)、基礎(chǔ)信息庫(kù)和行業(yè)主題庫(kù)等多種數(shù)據(jù)庫(kù)實(shí)例,將政務(wù)大數(shù)據(jù)中所涉及的法人庫(kù)、宏觀經(jīng)濟(jì)庫(kù)、地理信息庫(kù)等,以及各行業(yè)領(lǐng)域面向業(yè)務(wù)場(chǎng)景的專屬主題庫(kù)作為數(shù)據(jù)存儲(chǔ)層的對(duì)外服務(wù)能力,并以此構(gòu)建數(shù)據(jù)共享交換的公共信息資源池。
數(shù)據(jù)治理層是從根本上解決數(shù)據(jù)管理標(biāo)準(zhǔn)缺失的有效途徑。沃云大數(shù)據(jù)平臺(tái)在貼源業(yè)務(wù)數(shù)據(jù)采集的同時(shí),實(shí)現(xiàn)了業(yè)務(wù)元數(shù)據(jù)的同步獲取能力,進(jìn)而根據(jù)行業(yè)客戶的實(shí)際需求完成數(shù)據(jù)目錄的定制和編排,使來(lái)自不同部門(mén)、不同領(lǐng)域的原始數(shù)據(jù)形成統(tǒng)一的信息描述和一致的數(shù)據(jù)定義。通過(guò)數(shù)據(jù)ETL加工閉環(huán)處理,數(shù)據(jù)治理層積累形成了全域數(shù)據(jù)資源的“血緣關(guān)系”,在保證數(shù)據(jù)高可用性的同時(shí)實(shí)現(xiàn)了數(shù)據(jù)溯源能力,以及面向不同用戶角色的數(shù)據(jù)權(quán)限管理和分配能力,從而為數(shù)據(jù)的共享和開(kāi)放提供租戶級(jí)邏輯隔離,最大程度上保證了數(shù)據(jù)隱私和讀寫(xiě)訪問(wèn)安全。
數(shù)據(jù)共享交換層是打通數(shù)據(jù)壁壘的直接表現(xiàn)。基于SOA架構(gòu)和消息隊(duì)列機(jī)制,沃云大數(shù)據(jù)平臺(tái)通過(guò)ESB實(shí)現(xiàn)了多路徑數(shù)據(jù)路由和數(shù)據(jù)橋接服務(wù)能力,滿足了行業(yè)間數(shù)據(jù)共享開(kāi)放的核心訴求。配合數(shù)據(jù)治理所提供的業(yè)務(wù)元數(shù)據(jù)目錄發(fā)布,數(shù)據(jù)共享交換層以可視化列表的方式展示了可供用戶訪問(wèn)的開(kāi)放數(shù)據(jù)樣例,允許用戶通過(guò)REST接口進(jìn)行開(kāi)放數(shù)據(jù)資源的下載和二次封裝。
通過(guò)對(duì)各功能子層的剖析可以看出,沃云大數(shù)據(jù)平臺(tái)將數(shù)據(jù)管理貫穿于數(shù)據(jù)處理的全周期,以數(shù)據(jù)標(biāo)準(zhǔn)化治理能力帶動(dòng)多源異構(gòu)數(shù)據(jù)的加工和存儲(chǔ),最終形成規(guī)格統(tǒng)一、語(yǔ)義明晰、靈活定制的開(kāi)放數(shù)據(jù)集,從根本上緩解了由于數(shù)據(jù)標(biāo)準(zhǔn)缺失和供需服務(wù)失配導(dǎo)致的行業(yè)數(shù)據(jù)“不敢公開(kāi)、不會(huì)公開(kāi)”等難題,為數(shù)據(jù)應(yīng)用的創(chuàng)新發(fā)展和數(shù)據(jù)價(jià)值持續(xù)提升奠定了良好的基礎(chǔ)支撐服務(wù)環(huán)境。
沃云大數(shù)據(jù)的經(jīng)驗(yàn)與展望
聯(lián)通云數(shù)據(jù)公司依托12大云基地資源及31個(gè)省市云資源池,先后為10余個(gè)省級(jí)和地市政務(wù)打造了電子政務(wù)云平臺(tái)和智慧城市云平臺(tái),同時(shí)還面向教育、旅游、醫(yī)療、電子商務(wù)等多個(gè)領(lǐng)域向數(shù)百家用戶提供了云計(jì)算和大數(shù)據(jù)服務(wù),通過(guò)“云數(shù)一體”的服務(wù)理念幫助各類用戶實(shí)現(xiàn)了以數(shù)據(jù)決策為驅(qū)動(dòng)的產(chǎn)業(yè)轉(zhuǎn)型,提高了政企用戶在社會(huì)治理、市場(chǎng)研判和管理決策等方面的服務(wù)水平和執(zhí)行效率。典型場(chǎng)景包括以下幾個(gè)方面。
結(jié)合人口基本信息庫(kù)和扶貧教育資金投放信息,將傳統(tǒng)扶貧助學(xué)“先墊付后補(bǔ)助”的資金投放模式轉(zhuǎn)變?yōu)轭A(yù)先精準(zhǔn)發(fā)放的執(zhí)行計(jì)劃,緩解了貧困群體由于資金短缺、無(wú)法墊資入學(xué)從而導(dǎo)致失學(xué)的被動(dòng)局面,有效降低了貧困失學(xué)兒童的比例,同時(shí)通過(guò)教育收入的溯源和后評(píng)估,落實(shí)了扶貧助學(xué)資金的?顚S帽O(jiān)督職能,為后續(xù)助學(xué)資金的滾動(dòng)發(fā)放提供了直接決策依據(jù)。
通過(guò)關(guān)聯(lián)用戶位置信息、機(jī)票/火車(chē)票銷售信息,以及酒店預(yù)訂信息等跨行業(yè)數(shù)據(jù)資源,實(shí)現(xiàn)對(duì)熱點(diǎn)旅游地區(qū)的精準(zhǔn)預(yù)言,幫助政府職能部門(mén)適時(shí)調(diào)整交通路線疏導(dǎo)策略,幫助涉旅企業(yè)預(yù)置旅游資源和必備用品,為出游人群提供相對(duì)理性的出行建議和日程安排,全面提升旅游行業(yè)的綜合服務(wù)能力,改善用戶出游體驗(yàn)。
關(guān)聯(lián)分析我國(guó)進(jìn)出口貿(mào)易數(shù)據(jù)和市場(chǎng)銷售數(shù)據(jù),面向各銷售門(mén)類呈現(xiàn)商品銷售的來(lái)源跟蹤、銷售統(tǒng)計(jì)和市場(chǎng)份額,為政企部門(mén)調(diào)整商品生產(chǎn)政策、改善市場(chǎng)供需平衡提供客觀的管理決策支撐,并積極引導(dǎo)我國(guó)優(yōu)勢(shì)商品對(duì)外出口,通過(guò)產(chǎn)品的質(zhì)量提升彌補(bǔ)國(guó)內(nèi)市場(chǎng)短板,全面借助數(shù)據(jù)資源推進(jìn)生產(chǎn)制造、食品等領(lǐng)域的供給側(cè)結(jié)構(gòu)性改革。我國(guó)乳制品進(jìn)出口數(shù)據(jù)分析示例如圖2所示。
圖2 我國(guó)乳制品進(jìn)出口數(shù)據(jù)分析示例
誠(chéng)然,大數(shù)據(jù)的應(yīng)用范圍和創(chuàng)新能力遠(yuǎn)不止上述場(chǎng)景和成功案例,沃云大數(shù)據(jù)平臺(tái)亦是始終堅(jiān)持合作開(kāi)放的共贏理念,通過(guò)搭建基礎(chǔ)大數(shù)據(jù)平臺(tái),構(gòu)建以數(shù)據(jù)共享交換為核心的多級(jí)數(shù)據(jù)開(kāi)放服務(wù)能力,形成更廣范圍內(nèi)跨行業(yè)數(shù)據(jù)的集聚效應(yīng),拓展面向行業(yè)領(lǐng)域和特定應(yīng)用場(chǎng)景的數(shù)據(jù)關(guān)聯(lián)分析模型,引導(dǎo)內(nèi)外部數(shù)據(jù)應(yīng)用創(chuàng)新和數(shù)據(jù)價(jià)值變現(xiàn),充分釋放數(shù)據(jù)資源作為戰(zhàn)略性資產(chǎn)在經(jīng)濟(jì)發(fā)展中的關(guān)鍵作用。