隨著移動互聯(lián)網(wǎng)、云計算和物聯(lián)網(wǎng)的快速發(fā)展,越來越多的信息將人、事、物緊密地聯(lián)系在一起,利用信息資源描述社會活動,進而提供客觀、準確的決策依據(jù)成為信息技術應用的新動力,大數(shù)據(jù)技術應運而生。
國內大數(shù)據(jù)產(chǎn)業(yè)仍處于發(fā)展初期
當前正值大數(shù)據(jù)蓬勃發(fā)展的最佳時期,各行業(yè)在國內利好政策指引下紛紛開展數(shù)據(jù)應用創(chuàng)新和產(chǎn)業(yè)轉型。以互聯(lián)網(wǎng)企業(yè)為代表的IT領域率先探索了數(shù)據(jù)驅動發(fā)展的實踐活動,不僅面向特定行業(yè)形成了廣泛的大數(shù)據(jù)產(chǎn)品,也通過示范應用和試點推廣等途徑積累了一定的大數(shù)據(jù)實踐經(jīng)驗。
同時,我們應該客觀認識到,目前國內大數(shù)據(jù)產(chǎn)業(yè)仍處于發(fā)展初期,且各行業(yè)應用水平參差不齊,電商、通信、交通、金融等信息基礎較強的細分領域表現(xiàn)出明顯優(yōu)勢,而擁有70%以上公共信息資源的政務大數(shù)據(jù)領域則相對滯后。究其原因可以總結為以下兩個方面:首先,數(shù)據(jù)管理標準缺失嚴重影響了政務數(shù)據(jù)的可用性;其次,大數(shù)據(jù)的產(chǎn)業(yè)生態(tài)結構引發(fā)了數(shù)據(jù)服務的供需不對稱現(xiàn)象。
而以技術見長的互聯(lián)網(wǎng)企業(yè)只得投身大數(shù)據(jù)技術組件研發(fā)和基礎平臺構建,缺少對實際業(yè)務場景的接觸和理解,其數(shù)據(jù)產(chǎn)品和服務難以準確匹配數(shù)據(jù)所有者的真實生產(chǎn)需求,在供需對接上存在著錯位現(xiàn)象。如何有效地選擇和組合數(shù)據(jù)產(chǎn)品及服務,成為了數(shù)據(jù)所有者普遍面臨的困境,阻礙了數(shù)據(jù)應用創(chuàng)新的拓展范圍和發(fā)展速度。
因此,優(yōu)先解決跨行業(yè)、跨領域的數(shù)據(jù)可用性低下問題,以數(shù)據(jù)共享為根本出發(fā)點,提供一體化的大數(shù)據(jù)服務平臺,是有效應對我國當前數(shù)據(jù)創(chuàng)新發(fā)展過程中核心癥結的必要途徑。
推出沃云大數(shù)據(jù)一體化服務平臺
為了更好地滿足政務數(shù)據(jù)的共享開放和行業(yè)數(shù)據(jù)的互通互融需求,聯(lián)通云數(shù)據(jù)公司圍繞“數(shù)據(jù)共享”的理念,自主設計并建設了沃云大數(shù)據(jù)一體化服務平臺,形成了涵蓋數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)加工、數(shù)據(jù)管理、數(shù)據(jù)模型構建和數(shù)據(jù)開放等全生命周期處理流程的數(shù)據(jù)服務能力,為廣泛的政企客戶對接數(shù)據(jù)資產(chǎn)、進行自主數(shù)據(jù)應用創(chuàng)新提供了普適性的基礎大數(shù)據(jù)支撐環(huán)境。沃云大數(shù)據(jù)服務平臺的功能架構如圖1所示。
圖1 沃云大數(shù)據(jù)服務平臺的功能架構
沃云大數(shù)據(jù)平臺遵循“云數(shù)一體化”的設計理念,形成了“水平解耦、垂直并行”的數(shù)據(jù)服務框架。在水平層面上提供基礎設施統(tǒng)一調度能力和數(shù)據(jù)處理全流程的開放服務能力,匹配云計算技術所公知的IaaS/PaaS/SaaS分層服務模型;在垂直層面上區(qū)隔面向數(shù)據(jù)生產(chǎn)和數(shù)據(jù)管理的平行業(yè)務線條,針對平臺上不同的用戶角色形成了數(shù)據(jù)“用管兼顧”的系統(tǒng)功能架構。
具體來看,基礎設施層延續(xù)了聯(lián)通云數(shù)據(jù)公司的既有優(yōu)勢,通過整合IDC機房資源、服務器、存儲設備、網(wǎng)絡和安全設備,基于OpenStack開源管理框架對外提供標準的云計算IaaS/MaaS服務能力,實現(xiàn)KVM云主機、物理服務器、分布式存儲、VPC、虛擬安全防護等多種資源的在線交付和統(tǒng)一管理調度,便于上層大數(shù)據(jù)技術組件在異構、混搭的硬件環(huán)境中進行靈活部署和更廣泛地資源適配。
數(shù)據(jù)采集與處理是開展大數(shù)據(jù)應用的首要環(huán)節(jié)。考慮到數(shù)據(jù)來源的廣泛性和異構性,沃云大數(shù)據(jù)平臺不僅支持通過傳統(tǒng)的FTP文件傳輸方式完成貼源數(shù)據(jù)收集,還基于Flume、Kafka等主流技術實現(xiàn)了對日志信息的抓取和流式采集,并集成了深度縱向解析等網(wǎng)絡爬蟲功能,滿足多源數(shù)據(jù)的一站式獲取需求。為了更好地與現(xiàn)有電子政務系統(tǒng)進行信息對接,沃云大數(shù)據(jù)平臺還提供了基于Agent或無代理模式的前置機采集方式,在符合敏感數(shù)據(jù)保護的前提下快速實現(xiàn)政務大數(shù)據(jù)的前向采集和信息抽取。
如前文所述,跨行業(yè)、跨部門數(shù)據(jù)質量的良莠不齊是影響數(shù)據(jù)應用的主要因素之一,沃云大數(shù)據(jù)平臺自設計之初便將數(shù)據(jù)管理納入數(shù)據(jù)加工的流程之中,根據(jù)客戶的業(yè)務數(shù)據(jù)組成和元數(shù)據(jù)結構,提供可自定義的元數(shù)據(jù)標準和數(shù)據(jù)目錄編排能力,并通過在線數(shù)據(jù)ETL工作流界面,遵循統(tǒng)一的數(shù)據(jù)管理標準完成數(shù)據(jù)格式轉換和信息一致性加工處理。利用“元數(shù)據(jù)-標準目錄-數(shù)據(jù)加工”的閉環(huán)流程,解決了跨部門、跨行業(yè)數(shù)據(jù)之間的由于規(guī)范和標準不統(tǒng)一所導致的數(shù)據(jù)可用性問題。數(shù)據(jù)存儲層基于RDBMS和HDFS提供了結構化數(shù)據(jù)和非結構化數(shù)據(jù)的混搭存儲能力,支持前端采集到的數(shù)據(jù)按照存儲類型進行文件級或數(shù)據(jù)庫表級的靈活訪問。
數(shù)據(jù)存儲的最終目的是服務于數(shù)據(jù)共享交換,因此沃云大數(shù)據(jù)平臺通過貼源業(yè)務庫、基礎信息庫和行業(yè)主題庫等多種數(shù)據(jù)庫實例,將政務大數(shù)據(jù)中所涉及的法人庫、宏觀經(jīng)濟庫、地理信息庫等,以及各行業(yè)領域面向業(yè)務場景的專屬主題庫作為數(shù)據(jù)存儲層的對外服務能力,并以此構建數(shù)據(jù)共享交換的公共信息資源池。
數(shù)據(jù)治理層是從根本上解決數(shù)據(jù)管理標準缺失的有效途徑。沃云大數(shù)據(jù)平臺在貼源業(yè)務數(shù)據(jù)采集的同時,實現(xiàn)了業(yè)務元數(shù)據(jù)的同步獲取能力,進而根據(jù)行業(yè)客戶的實際需求完成數(shù)據(jù)目錄的定制和編排,使來自不同部門、不同領域的原始數(shù)據(jù)形成統(tǒng)一的信息描述和一致的數(shù)據(jù)定義。通過數(shù)據(jù)ETL加工閉環(huán)處理,數(shù)據(jù)治理層積累形成了全域數(shù)據(jù)資源的“血緣關系”,在保證數(shù)據(jù)高可用性的同時實現(xiàn)了數(shù)據(jù)溯源能力,以及面向不同用戶角色的數(shù)據(jù)權限管理和分配能力,從而為數(shù)據(jù)的共享和開放提供租戶級邏輯隔離,最大程度上保證了數(shù)據(jù)隱私和讀寫訪問安全。
數(shù)據(jù)共享交換層是打通數(shù)據(jù)壁壘的直接表現(xiàn);赟OA架構和消息隊列機制,沃云大數(shù)據(jù)平臺通過ESB實現(xiàn)了多路徑數(shù)據(jù)路由和數(shù)據(jù)橋接服務能力,滿足了行業(yè)間數(shù)據(jù)共享開放的核心訴求。配合數(shù)據(jù)治理所提供的業(yè)務元數(shù)據(jù)目錄發(fā)布,數(shù)據(jù)共享交換層以可視化列表的方式展示了可供用戶訪問的開放數(shù)據(jù)樣例,允許用戶通過REST接口進行開放數(shù)據(jù)資源的下載和二次封裝。
通過對各功能子層的剖析可以看出,沃云大數(shù)據(jù)平臺將數(shù)據(jù)管理貫穿于數(shù)據(jù)處理的全周期,以數(shù)據(jù)標準化治理能力帶動多源異構數(shù)據(jù)的加工和存儲,最終形成規(guī)格統(tǒng)一、語義明晰、靈活定制的開放數(shù)據(jù)集,從根本上緩解了由于數(shù)據(jù)標準缺失和供需服務失配導致的行業(yè)數(shù)據(jù)“不敢公開、不會公開”等難題,為數(shù)據(jù)應用的創(chuàng)新發(fā)展和數(shù)據(jù)價值持續(xù)提升奠定了良好的基礎支撐服務環(huán)境。
沃云大數(shù)據(jù)的經(jīng)驗與展望
聯(lián)通云數(shù)據(jù)公司依托12大云基地資源及31個省市云資源池,先后為10余個省級和地市政務打造了電子政務云平臺和智慧城市云平臺,同時還面向教育、旅游、醫(yī)療、電子商務等多個領域向數(shù)百家用戶提供了云計算和大數(shù)據(jù)服務,通過“云數(shù)一體”的服務理念幫助各類用戶實現(xiàn)了以數(shù)據(jù)決策為驅動的產(chǎn)業(yè)轉型,提高了政企用戶在社會治理、市場研判和管理決策等方面的服務水平和執(zhí)行效率。典型場景包括以下幾個方面。
結合人口基本信息庫和扶貧教育資金投放信息,將傳統(tǒng)扶貧助學“先墊付后補助”的資金投放模式轉變?yōu)轭A先精準發(fā)放的執(zhí)行計劃,緩解了貧困群體由于資金短缺、無法墊資入學從而導致失學的被動局面,有效降低了貧困失學兒童的比例,同時通過教育收入的溯源和后評估,落實了扶貧助學資金的?顚S帽O(jiān)督職能,為后續(xù)助學資金的滾動發(fā)放提供了直接決策依據(jù)。
通過關聯(lián)用戶位置信息、機票/火車票銷售信息,以及酒店預訂信息等跨行業(yè)數(shù)據(jù)資源,實現(xiàn)對熱點旅游地區(qū)的精準預言,幫助政府職能部門適時調整交通路線疏導策略,幫助涉旅企業(yè)預置旅游資源和必備用品,為出游人群提供相對理性的出行建議和日程安排,全面提升旅游行業(yè)的綜合服務能力,改善用戶出游體驗。
關聯(lián)分析我國進出口貿易數(shù)據(jù)和市場銷售數(shù)據(jù),面向各銷售門類呈現(xiàn)商品銷售的來源跟蹤、銷售統(tǒng)計和市場份額,為政企部門調整商品生產(chǎn)政策、改善市場供需平衡提供客觀的管理決策支撐,并積極引導我國優(yōu)勢商品對外出口,通過產(chǎn)品的質量提升彌補國內市場短板,全面借助數(shù)據(jù)資源推進生產(chǎn)制造、食品等領域的供給側結構性改革。我國乳制品進出口數(shù)據(jù)分析示例如圖2所示。
圖2 我國乳制品進出口數(shù)據(jù)分析示例
誠然,大數(shù)據(jù)的應用范圍和創(chuàng)新能力遠不止上述場景和成功案例,沃云大數(shù)據(jù)平臺亦是始終堅持合作開放的共贏理念,通過搭建基礎大數(shù)據(jù)平臺,構建以數(shù)據(jù)共享交換為核心的多級數(shù)據(jù)開放服務能力,形成更廣范圍內跨行業(yè)數(shù)據(jù)的集聚效應,拓展面向行業(yè)領域和特定應用場景的數(shù)據(jù)關聯(lián)分析模型,引導內外部數(shù)據(jù)應用創(chuàng)新和數(shù)據(jù)價值變現(xiàn),充分釋放數(shù)據(jù)資源作為戰(zhàn)略性資產(chǎn)在經(jīng)濟發(fā)展中的關鍵作用。