12月3日消息
在上周由中國(guó)計(jì)算機(jī)學(xué)會(huì)主辦的“Hadoop與大數(shù)據(jù)技術(shù)大會(huì)”上,中國(guó)移動(dòng)研究院云計(jì)算研究員齊驥表示,隨著移動(dòng)互聯(lián)網(wǎng)規(guī)模高速成長(zhǎng)
,運(yùn)營(yíng)商也面臨大數(shù)據(jù)難題,尤其是對(duì)數(shù)據(jù)的存儲(chǔ)需求增長(zhǎng),迅速擴(kuò)容壓力與日俱增。
因此,齊驥介紹,中國(guó)移動(dòng)率先在國(guó)內(nèi)啟動(dòng)“大云”計(jì)劃,以技術(shù)研究、原型系統(tǒng)開(kāi)發(fā)為先導(dǎo),以策略研究為指導(dǎo),逐步規(guī)范化、產(chǎn)品化,形成現(xiàn)網(wǎng)落地并推廣。目前,大云產(chǎn)品布局已基本完成,同時(shí),針對(duì)運(yùn)營(yíng)商IT支撐系統(tǒng)的業(yè)務(wù)需求,“大云”團(tuán)隊(duì)基于開(kāi)源軟件開(kāi)發(fā)了HugeTable大數(shù)據(jù)倉(cāng)庫(kù)。
技術(shù)融合:彌補(bǔ)Hive、Hbase不足
據(jù)齊驥介紹,傳統(tǒng)的解決方案價(jià)格昂貴,現(xiàn)有開(kāi)源系統(tǒng)僅滿足部分需求,不滿足數(shù)據(jù)實(shí)時(shí)上線要求,無(wú)法使用單一存儲(chǔ)引擎同時(shí)支持精確定位查詢和OLAP查詢,且不支持索引,無(wú)法處理投訴查詢。
“Hive是基于Hadoop的開(kāi)源數(shù)據(jù)倉(cāng)庫(kù)框架,擁有數(shù)據(jù)量元超傳統(tǒng)數(shù)據(jù)庫(kù)、成本低廉、擴(kuò)展性好、支持標(biāo)準(zhǔn)SQL查詢語(yǔ)言等特點(diǎn)”齊驥表示,“但是,其存在可視化支持不足、不支持?jǐn)?shù)據(jù)預(yù)處理、應(yīng)用整合能力不足、查詢延遲等問(wèn)題。”
“Hbase是在Hadoop之上構(gòu)建的菲關(guān)系型、面向列存儲(chǔ)的開(kāi)源分布式結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)系統(tǒng),其具有數(shù)據(jù)有序稀疏數(shù)據(jù)列存儲(chǔ)、行級(jí)別數(shù)據(jù)一致性等特點(diǎn)”齊驥表示,“但是,其存在面向特定應(yīng)用設(shè)計(jì),應(yīng)用代碼重用度不高、缺乏統(tǒng)一接口標(biāo)準(zhǔn)、產(chǎn)品成熟度不高,極限情況下不穩(wěn)定、需要應(yīng)用程序做較多工作,與應(yīng)用耦合太緊等問(wèn)題。”
相比Hive、Hbase,據(jù)齊驥介紹,HugeTable技術(shù)可以算是取兩者之精華,補(bǔ)兩者之不足。“在存儲(chǔ)引擎機(jī)制方面,它能針對(duì)不同的應(yīng)用場(chǎng)景如OLAP、OLTP,提供不同的存儲(chǔ)引擎選擇,保證客戶存儲(chǔ)、查詢成本最優(yōu);在智能索引機(jī)制方面,它能面向不同查詢,根據(jù)查詢代價(jià)動(dòng)態(tài)選擇索引,進(jìn)一步縮短查詢響應(yīng)時(shí)間;在分布式加載框架方面,它能并行、持續(xù)、可預(yù)處理的分布加載系統(tǒng);在可靠性保證方面,它所有模塊、服務(wù)無(wú)單點(diǎn)故障,保證系統(tǒng)在生產(chǎn)環(huán)境下可靠運(yùn)行;在數(shù)據(jù)訪問(wèn)接口方面,它提供包括NativeAPI、MapReduce API和SQL在內(nèi)的多種數(shù)據(jù)訪問(wèn)接口,方便應(yīng)用的開(kāi)發(fā)和移植。”
未來(lái)發(fā)展:面向三大開(kāi)發(fā)方向
齊驥表示,HugeTable技術(shù)系統(tǒng)是在Hive、Hbase等開(kāi)源工具基礎(chǔ)上進(jìn)一步完善的成果,使其不再僅滿足部分海量數(shù)據(jù)存儲(chǔ)、分析場(chǎng)景,在互聯(lián)網(wǎng)和運(yùn)營(yíng)商領(lǐng)域廣泛應(yīng)用,在解決運(yùn)營(yíng)商復(fù)雜大數(shù)據(jù)問(wèn)題上滿足其功能、性能、可用性等方面問(wèn)題。
為了更好幫助運(yùn)營(yíng)商解決大數(shù)據(jù)難題,進(jìn)一步提升系統(tǒng)性能,據(jù)齊驥介紹,下一步將在實(shí)時(shí)的大數(shù)據(jù)分析、列存儲(chǔ)技術(shù)、多租用戶安全性支持這三大方面深度開(kāi)發(fā)。
“比如在信息檢測(cè)領(lǐng)域,經(jīng)常需要對(duì)數(shù)以十億計(jì)的信息檢測(cè)數(shù)據(jù)進(jìn)行多難度的統(tǒng)計(jì)分析。而應(yīng)用要求在10秒鐘,甚至更短的時(shí)間返回結(jié)果,因此需要實(shí)現(xiàn)實(shí)時(shí)的大數(shù)據(jù)分析。”齊驥如是說(shuō)。
另外,齊驥表示,雖然已經(jīng)支持了RCFile這種近似列存的儲(chǔ)存引擎,但對(duì)于更細(xì)粒度的存儲(chǔ)支持和基于數(shù)據(jù)塊統(tǒng)計(jì)信息的查詢優(yōu)化實(shí)際上還需要投入更多的精力。在帳詳單領(lǐng)域往往要求儲(chǔ)存數(shù)據(jù)壓縮比例達(dá)到10:1甚至更高,這就需要先進(jìn)的列存技術(shù)支撐。
而且,齊驥強(qiáng)調(diào),從存儲(chǔ)引擎、應(yīng)用開(kāi)發(fā)接口及外圍工具的各個(gè)層面,統(tǒng)一的支持多租用戶機(jī)制,并保證在此場(chǎng)景下所有數(shù)據(jù)操作的安全性,對(duì)HugeTable來(lái)說(shuō)也是一個(gè)重要的挑戰(zhàn)。
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書(shū)》
2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書(shū)-2022_03-21》
3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無(wú)線接入網(wǎng)白皮書(shū)》
4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書(shū)》》
5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5G NTN技術(shù)白皮書(shū)》
6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解》
7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書(shū)》
8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1》