市場研究相關(guān)的大數(shù)據(jù)技術(shù)與資源介紹

    內(nèi)容摘要:在前兩篇討論產(chǎn)品方法論和業(yè)務(wù)模式變化的文章中,可以發(fā)現(xiàn),IT技術(shù)成為大數(shù)據(jù)業(yè)務(wù)生態(tài)下的重要競爭力。本文中筆者將結(jié)合自身工作,針對市場研究所需的大數(shù)據(jù)IT技術(shù)以及可用資源進(jìn)行簡要介紹。內(nèi)容主要面向非技術(shù)性的研究人員,不涉及技術(shù)細(xì)節(jié)。

1 研究業(yè)務(wù)的技術(shù)特性要求

    大數(shù)據(jù)相關(guān)技術(shù)和資源眾多,先從市場研究的業(yè)務(wù)特點來分析其對技術(shù)性的一些要求:

    1. 數(shù)據(jù)規(guī)模而言,因為客戶主要偏傳統(tǒng)企業(yè)客戶(非互聯(lián)網(wǎng)類),受其業(yè)務(wù)限制,可分析的大數(shù)據(jù)規(guī)模不會超過百億/TB級,不像互聯(lián)網(wǎng)企業(yè)達(dá)到千億/PB級。

    2. 數(shù)據(jù)格式還是以結(jié)構(gòu)化數(shù)據(jù)為主,部分非結(jié)構(gòu)化文本(如互聯(lián)網(wǎng)/社交方面為主)。

    3. 處理模式上,因為分析過程是多次迭代和不斷深入,不需要實時出結(jié)論,所以離線非實時、批量化/AdHoc結(jié)合的OLAP分析是主要模式。這個和很多互聯(lián)網(wǎng)企業(yè)的實時大數(shù)據(jù)業(yè)務(wù)要求不同。

    4. 分析的屬性維度多樣,經(jīng)常變化,關(guān)注整體特性。所以對數(shù)據(jù)管理中的多字段檢索和匯總統(tǒng)計的能力要求較高。

    基于以上的技術(shù)要求,我們來討論研究業(yè)務(wù)適合的技術(shù)理論與資源。

2主要技術(shù)理論

    在整個大數(shù)據(jù)相關(guān)技術(shù)體系中,研究公司大數(shù)據(jù)業(yè)務(wù)涉及的技術(shù)領(lǐng)域主要如下:

n 分布式計算(Distributed computing)

    在大數(shù)據(jù)領(lǐng)域,大部分?jǐn)?shù)據(jù)存儲和高速計算都離不開分布式計算。日常生活中,我們一臺電腦可完成所有計算和數(shù)據(jù)存儲,當(dāng)覺得不夠用時,通常是更換更快的CPU和更大硬盤來解決。但當(dāng)計算速度和存儲要求越來越高時(如大數(shù)據(jù)環(huán)境下對TB甚至PB級數(shù)據(jù)管理計算),這種通過提升單臺服務(wù)器性能的集中模式會導(dǎo)致服務(wù)器(如使用在運營商話單計費、銀行交易系統(tǒng)的小型機(jī))成本極為昂貴,且最終可能仍然無法滿足要求。另外一種思路,則是將大的計算需求分?jǐn)偟蕉嗯_計算機(jī)一起來完成(如同一個大卡車的載貨被分到很多臺小卡車來運輸一樣)。相應(yīng)的分布式計算(包括存儲)就是通過多臺(成千上萬甚至百萬)廉價、低性能服務(wù)器來實現(xiàn)超高的計算存儲能力。在分布式計算系統(tǒng)中,任何計算和存儲請求,被自動分為多個小的任務(wù),分?jǐn)偟礁鞣⻊?wù)器上并行完成。同時,數(shù)據(jù)分布在多個服務(wù)器節(jié)點并有備份,這樣即使部分服務(wù)器損壞并不影響系統(tǒng)運行。

    相比集中模式,分布式計算成本和門檻更低,易擴(kuò)展并具高可靠性。成為近10年來IT體系架構(gòu)最重要的技術(shù),支撐起了整個互聯(lián)網(wǎng)的數(shù)據(jù)和業(yè)務(wù),也是云計算和大數(shù)據(jù)的支撐技術(shù)之一。

n 機(jī)器學(xué)習(xí)(Machine Learning)

    如果說分布式計算是IT體系架構(gòu)的明星,那機(jī)器學(xué)習(xí)就是智能數(shù)據(jù)分析的利器了。作為人工智能的核心研究領(lǐng)域之一,機(jī)器學(xué)習(xí)是為了讓計算機(jī)通過經(jīng)驗(先驗知識數(shù)據(jù))來模仿人類的學(xué)習(xí)能力,從而獲得計算機(jī)系統(tǒng)能力的提升。上世紀(jì)末,隨著統(tǒng)計學(xué)習(xí)理論出現(xiàn)和發(fā)展,機(jī)器學(xué)習(xí)從IT技術(shù)逐步擴(kuò)展為一種交叉學(xué)科,在很多非IT領(lǐng)域也得到廣泛應(yīng)用。雖然相關(guān)算法在理論上需要較多的知識背景,但不要覺得它是多么高大上,比如研究行業(yè)常用到的決策樹、分類(有監(jiān)督學(xué)習(xí))和聚類(無監(jiān)督學(xué)習(xí)),實際都是機(jī)器學(xué)習(xí)的算法子集(其他常用的還有Bayes網(wǎng)絡(luò)、支持向量機(jī)和神經(jīng)元網(wǎng)絡(luò)等);谟(xùn)練-建模-分類-優(yōu)化的迭代生成模式,使得機(jī)器學(xué)習(xí)在實際的分析性能和模型適用性方面,具有較大的優(yōu)勢。近兩年來,基于多層神經(jīng)網(wǎng)絡(luò)的深度學(xué)習(xí)(Deep Learning)理論在一些領(lǐng)域(自然語言、音視頻識別)具有突出的表現(xiàn),有望進(jìn)一步推動機(jī)器學(xué)習(xí)的深入分析能力。

    大數(shù)據(jù)領(lǐng)域,機(jī)器學(xué)習(xí)由于其在數(shù)據(jù)分析方面的先天優(yōu)勢能力,當(dāng)仁不讓的成為相關(guān)數(shù)據(jù)分析的核心技術(shù)。該方面的技術(shù)水平成為當(dāng)前衡量大數(shù)據(jù)分析能力的重要標(biāo)志。

n 自然語言處理(Natural Language Process)

    大數(shù)據(jù)的多種數(shù)據(jù)中,非結(jié)構(gòu)化數(shù)據(jù)日趨龐雜和重要,其代表就是自然語言形式的語義內(nèi)容(搜索、新聞、社交媒體、電商評論等),而對其內(nèi)容的分析(如文本挖掘)離不開自然語言處理技術(shù)。相關(guān)學(xué)術(shù)學(xué)科叫計算語言學(xué),作為計算機(jī)與語言的交叉學(xué)科,它以統(tǒng)計性、量化的方式來研究語言的規(guī)律。自然語言處理涉及分詞、詞法、句法、語法、語義分析等多個層面,相當(dāng)復(fù)雜。而當(dāng)前商業(yè)性應(yīng)用,中文的主要集中在分詞、詞頻統(tǒng)計、關(guān)鍵特征抽取等淺層分析、情感傾向與主題模型(如LDA/PLSA等)和機(jī)器翻譯等方面。傳統(tǒng)研究業(yè)務(wù)中,也可用于開放題/討論文本的自動分析編碼。實際上,NLP的應(yīng)用領(lǐng)域應(yīng)該可以更大。舉一個有趣的例子,曹雪芹的《紅樓夢》最后40章常被認(rèn)為是高鶚續(xù)作,但相關(guān)觀點的紅學(xué)家/語言學(xué)家并不能有效證明。借助計算語言學(xué),可對前80章和后40章的內(nèi)容進(jìn)行分析(包括用詞習(xí)慣、句法、文法等等),可得到兩部分文章在行文風(fēng)格的多種量化指標(biāo),通過其差異就能判斷是否為不同的作者。計算語言學(xué)的理論基礎(chǔ)感覺近年來進(jìn)展不大,但深度學(xué)習(xí)近來的表現(xiàn)有望幫助其在應(yīng)用性能方面有所提升。

n 數(shù)據(jù)挖掘(Data Mining)

    數(shù)據(jù)挖掘在非大數(shù)據(jù)時代(海量數(shù)據(jù))就已經(jīng)廣泛使用(如CRM的用戶分析、產(chǎn)品關(guān)聯(lián)分析)。嚴(yán)格的說,其并不算是一種技術(shù),而是一種分析模式:綜合利用機(jī)器學(xué)習(xí)、數(shù)據(jù)庫技術(shù)和自然語言處理等多種技術(shù)方法,從數(shù)據(jù)中獲得相關(guān)的結(jié)果。在大數(shù)據(jù)時代,雖然數(shù)據(jù)的挖掘往往意味著數(shù)據(jù)金礦,但筆者認(rèn)為,挖掘技術(shù)必須與業(yè)務(wù)分析思路緊密結(jié)合,才會發(fā)揮出較大的價值。

n 其他關(guān)鍵技術(shù)

    在大數(shù)據(jù)時代,互聯(lián)網(wǎng)社交媒體數(shù)據(jù)(尤其是用戶間的關(guān)系數(shù)據(jù))體現(xiàn)出了前所未有的價值。對上億用戶錯綜復(fù)雜的關(guān)系網(wǎng)絡(luò)的快速分析,正是圖計算理論擅長之處。圖計算作為新興的技術(shù)理論,主要聚焦節(jié)點之間關(guān)系的深度研究,其不僅在社交用戶分析上價值很大,在惡意欺詐檢測、生命科學(xué)等領(lǐng)域都有巨大應(yīng)用前景。

    而隨著音視頻數(shù)據(jù)的日益普及和傳播,針對此類大數(shù)據(jù)的處理(比如語音識別/圖像、視頻識別分析)技術(shù),也在大數(shù)據(jù)業(yè)務(wù)中逐步開始使用。這些其實都是模式識別(Pattern Recognition)技術(shù)的應(yīng)用,核心問題是特征(維度較高)的抽取和相似/匹配性比較。

3主要技術(shù)資源與工具

    在前面了解的技術(shù)理論之上,我們進(jìn)一步介紹大數(shù)據(jù)業(yè)務(wù)中可使用的技術(shù)資源和工具。相關(guān)說明按業(yè)務(wù)流程順序展開,以主流、免費的開源資源為主(主要為筆者熟悉了解的,其他資源不做相關(guān)的評論和推薦)

(1)分布式計算框架

    分布式計算框架用于完成分布式計算所需的底層任務(wù)管理和調(diào)度等核心工作,是大數(shù)據(jù)計算體系結(jié)構(gòu)的基石。當(dāng)前主流的開源框架包括:

    n Hadoop和Map/Reduce。借鑒Google的分布式系統(tǒng)發(fā)展而來。09年筆者使用其早期版本時問題頗多,但幾年后其已經(jīng)成為事實的行業(yè)標(biāo)準(zhǔn),并衍生出龐大的上層生態(tài)圈。其Map/Reduce計算范式解決分布式調(diào)度和結(jié)果歸并的問題,大大降低了分布式程序開發(fā)的難度。Hadoop擅長的離線批量式處理適合研究公司的基礎(chǔ)數(shù)據(jù)計算(如匯總和統(tǒng)計),其缺點是響應(yīng)遲滯,速度慢,維護(hù)和編程也相對麻煩。

    n Spark.新的分布式開源框架,在迭代計算(如機(jī)器學(xué)習(xí))場景下比Hadoop快幾十倍,同時提供了MLLib機(jī)器學(xué)習(xí)、Spark Sql查詢和GraphX圖計算眾多大數(shù)據(jù)工具包,也更易于維護(hù)和編程。眾多優(yōu)點使得其近一年發(fā)展極快,受到了廣泛的支持,預(yù)計將代替Hadoop成為新的數(shù)據(jù)計算標(biāo)準(zhǔn)。Spark比Hadoop更加適合研究公司。在HCR(慧辰資訊)大數(shù)據(jù)平臺中,其作為大數(shù)據(jù)分析計算的核心,完成機(jī)器學(xué)習(xí)的相關(guān)處理。

    n Strom.Hadoop和Spark都適合非實時處理,對于需要實時響應(yīng)的業(yè)務(wù)(比如DSP/RTB廣告實時競價,電商平臺實時購物推薦)場景,則是Storm流式計算框架的天下,高速和高容錯使得它已經(jīng)在此類業(yè)務(wù)環(huán)境中成為基本配置,如果研究公司存在類似實時處理特性的業(yè)務(wù)也可以考慮使用。

(2)數(shù)據(jù)管理

    數(shù)據(jù)管理主要包括存儲和快速檢索。大數(shù)據(jù)環(huán)境中,研究業(yè)務(wù)相關(guān)的數(shù)據(jù)更多以數(shù)據(jù)庫而不是文件方式存儲,所以這里主要介紹幾類數(shù)據(jù)庫的選擇

    n 關(guān)系數(shù)據(jù)庫(Mysql/Oracle)傳統(tǒng)的關(guān)系數(shù)據(jù)庫雖然對大數(shù)據(jù)的支持能力有些不足,但就研究公司而言,億級以下的結(jié)構(gòu)化數(shù)據(jù)的分析仍然會是未來分析的重要場景,此時使用關(guān)系數(shù)據(jù)庫(無論免費的Mysql還是商業(yè)的Oracle)完全沒有問題。其便于管理,工具成熟,適合研究中各種多維度的統(tǒng)計分析。同時,也適合在大數(shù)據(jù)業(yè)務(wù)中作為數(shù)據(jù)倉庫存儲大數(shù)據(jù)的中間分析結(jié)果,便于后續(xù)更上層分析。

    n 鍵值數(shù)據(jù)庫(HBase/Cassandra)真正意義上的大數(shù)據(jù)數(shù)據(jù)庫,基于分布式計算體系和鍵值模式可輕松支持百億規(guī)模以上的記錄管理。但其最適合針對特定單一條件(如某用戶的相關(guān)信息)的快速查詢,不支持多級索引,所以研究中常用的多維分析(多字段條件)會很麻煩(方便性遠(yuǎn)不如關(guān)系數(shù)據(jù)庫),對單用戶的檢索分析則很快。在HCR(慧辰資訊)(慧辰資訊)平臺中,HBase主要作為基礎(chǔ)大數(shù)據(jù)的存儲和單用戶行為標(biāo)簽的離線批量計算。

    文檔數(shù)據(jù)庫(MongoDB)另一基于文檔的大數(shù)據(jù)數(shù)據(jù)庫,使用上最大特點是可隨意增刪記錄的字段,尤其適合某些研究分析中隨時自定義分析屬性維度。如果有涉及地理空間的分析,其也比較方便。就實際應(yīng)用而言,建議在<10億級別的動態(tài)數(shù)據(jù)比較合適(否則對內(nèi)存和硬盤空間需求太大)

(3)處理與計算

    市場研究行業(yè)大數(shù)據(jù)業(yè)務(wù)中,分析相關(guān)的數(shù)據(jù)計算技術(shù)是最重要的技術(shù)內(nèi)容,主要集中在以下幾個領(lǐng)域:

    n 并行機(jī)器學(xué)習(xí)(Mahout /Spark MLLib)機(jī)器學(xué)習(xí)本已是數(shù)據(jù)計算利器,而基于分布式的并行機(jī)器學(xué)習(xí)框架則將其能力又大大增強(qiáng)。Mahout中實現(xiàn)了大量的機(jī)器學(xué)習(xí)算法(包括推薦算法)的并行版本(甚至有并行SVD這種高大上),是當(dāng)前大數(shù)據(jù)機(jī)器學(xué)習(xí)的主要工具包。MLib基于Spark框架,在性能上有優(yōu)勢,也開始受到廣泛的關(guān)注。

    自然語言處理在中文自然語言處理領(lǐng)域,當(dāng)前可用的免費開放資源并不多(分詞資源較多),一些開放資源主要來自學(xué)術(shù)院校(清華、中科院、復(fù)旦和哈工大等,相關(guān)內(nèi)容不便列出,請自行查找),但在效果上面向工業(yè)應(yīng)用尚有不足。當(dāng)前常見方式是借助專業(yè)技術(shù)企業(yè)/院校合作獲得深入分析能力。

    圖計算(GraphLab/Spark GraphX)如果有圖計算相關(guān)的需求可考慮采用這些開源資源。前者是當(dāng)前最主流的圖計算框架,實現(xiàn)了圖數(shù)據(jù)的存儲和基礎(chǔ)計算邏輯。后者GraphX是Spark體系下的圖計算新貴。

    n R語言R語言作為統(tǒng)計性功能強(qiáng)大的計算語言,在傳統(tǒng)研究行業(yè)具有較大應(yīng)用前景。同時其在可視化和開源支持方面也有一定優(yōu)勢。如今R對Hadoop的支持也比較完善。對于熟悉R語言的研究公司,可從R語言更快切入大數(shù)據(jù)的計算領(lǐng)域。

(4)研究分析

    在分析階段,考慮研究員將成為重要的角色,此時資源聚焦在研究員可以使用的各種工具上。以下是相關(guān)的一些內(nèi)容:

    Hive/Impala/Spark Sql分布式的大數(shù)據(jù)(數(shù)據(jù)倉庫)的分析工具,支持以傳統(tǒng)關(guān)系數(shù)據(jù)庫Sql語句進(jìn)行大數(shù)據(jù)內(nèi)容的檢索,大大降低了研究分析人員的大數(shù)據(jù)分析門檻,是適合數(shù)據(jù)分析/研究人員的最佳工具。Hive最早由Facebook開源,應(yīng)用最廣,但性能最差。Impala在性能與穩(wěn)定性的平衡較好,但限制較多。Spark Sql作為最新的工具,性能最強(qiáng),但穩(wěn)定性尚待完善。

    TableAU 企業(yè)級大數(shù)據(jù)分析工具,多應(yīng)用于世界500強(qiáng)企業(yè)內(nèi)部業(yè)務(wù)分析,不過其是商業(yè)付費軟件。其優(yōu)點是大數(shù)據(jù)下的可視化和方便性,研究人員使用比較容易。就實際應(yīng)用體會上,感覺更適合企業(yè)級內(nèi)部數(shù)據(jù)、億級以下的結(jié)構(gòu)化大數(shù)據(jù)的場景。分析維度主要是統(tǒng)計性維度,可分析深度相對不足。

    SPSS Modeler IBM的商用數(shù)據(jù)挖掘工具,對大數(shù)據(jù)支持能力不如TableAU(與其計算復(fù)雜度相關(guān)),其特點是提供專業(yè)的數(shù)據(jù)挖掘算法,研究中適合做深度/非統(tǒng)計性研究。

    Gephi可視化分析如果要做一些傳播關(guān)系的圖形化分析,那不妨考慮Gephi。其支持多種可視化分析圖生成。不過在較大數(shù)據(jù)量(比如2萬節(jié)點以上)時性能下降較快,所以最好對數(shù)據(jù)預(yù)先做相關(guān)平滑和剪枝。

    可視化開發(fā)框架數(shù)據(jù)可視化是大數(shù)據(jù)的一個特色,但這里放到研究分析來說明,是因為可視化技術(shù)的價值是幫助更有效的分析,不是花哨的展示。當(dāng)前國內(nèi)百度EChart(2.0以上版本)的易用性和功能相對不錯(就是感覺樣式配色不夠?qū)I(yè)),國外基于D3框架的應(yīng)用更能體現(xiàn)可視化的價值(效果強(qiáng)大,但開發(fā)比較麻煩)。桌面辦公軟件中,微軟GeoFlow支持Excel的Bing地圖可視化。其他還有很多各有特色的可視化框架,不再一一介紹了。

    HCR(慧辰資訊)認(rèn)為,經(jīng)過以上內(nèi)容,想必研究同行們對大數(shù)據(jù)相關(guān)技術(shù)已經(jīng)有了基本的認(rèn)識。如果要想在大數(shù)據(jù)業(yè)務(wù)服務(wù)中發(fā)揮自身價值,研究人員除了轉(zhuǎn)變方法論思路外,還要注意提升自身的技術(shù)能力。

    傳統(tǒng)研究業(yè)務(wù)中,研究員太依賴DP和其他IT人員進(jìn)行數(shù)據(jù)計算處理,自身沒有任何技術(shù)能力。大數(shù)據(jù)業(yè)態(tài)下,技術(shù)性分析與傳統(tǒng)研究將緊密結(jié)合,技術(shù)手段的使用程度深入影響數(shù)據(jù)洞察的深度。研究員如果熟悉相關(guān)技術(shù)手段(至少分析工具的使用),將會極大擴(kuò)展自身的分析能力。既熟悉大數(shù)據(jù)處理技術(shù),又懂得研究業(yè)務(wù)思路的復(fù)合人才—數(shù)據(jù)科學(xué)家,將是未來數(shù)據(jù)分析業(yè)務(wù)的王者。

    作者:HCR(慧辰資訊)馬亮


掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息