近日,中國聯(lián)通基于華為OceanStor存儲(chǔ)Pacific系列的大數(shù)據(jù)平臺(tái)正式上線,標(biāo)志著中國聯(lián)通和華為技術(shù)有限公司在大數(shù)據(jù)計(jì)算存儲(chǔ)分離架構(gòu)的規(guī);夹g(shù)創(chuàng)新方面取得了全面突破。
業(yè)務(wù)挑戰(zhàn)
中國聯(lián)通已經(jīng)構(gòu)建了全球電信行業(yè)技術(shù)和規(guī)模雙領(lǐng)先的集中一體化大數(shù)據(jù)平臺(tái),當(dāng)前正在推進(jìn)數(shù)據(jù)中臺(tái)戰(zhàn)略,實(shí)現(xiàn)全域數(shù)據(jù)共享,跨源跨域融合分析,快速釋放數(shù)據(jù)價(jià)值。
數(shù)據(jù)中臺(tái)建設(shè)對(duì)于數(shù)據(jù)基礎(chǔ)設(shè)施提出了新的挑戰(zhàn):
需要能夠靈活調(diào)度的數(shù)據(jù)基礎(chǔ)設(shè)施,計(jì)算、存儲(chǔ)資源分別池化,統(tǒng)一的存儲(chǔ)底座,和多樣的計(jì)算引擎,能夠基于業(yè)務(wù)需求快速調(diào)度,支持業(yè)務(wù)快速創(chuàng)新;
更低的存儲(chǔ)成本,5G時(shí)代,運(yùn)營(yíng)商數(shù)據(jù)量預(yù)計(jì)將增長(zhǎng)5倍以上,在當(dāng)前提速降費(fèi)的大環(huán)境下,需要更高效的利用存儲(chǔ)資源,節(jié)省CAPEX和OPEX投資;
數(shù)據(jù)共享,數(shù)據(jù)內(nèi)容越來越多樣化,為了避免數(shù)據(jù)孤島,支撐BOME四域數(shù)據(jù)融合分析,非結(jié)構(gòu)化和結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存儲(chǔ)已成為數(shù)據(jù)基礎(chǔ)設(shè)施的新標(biāo)準(zhǔn);
數(shù)據(jù)可靠性,數(shù)據(jù)分析能夠支撐企業(yè)提升用戶體驗(yàn),找到新的商業(yè)機(jī)會(huì),正在從邊緣業(yè)務(wù)走向核心系統(tǒng),作為其基礎(chǔ)設(shè)施,需能夠容忍多節(jié)點(diǎn)同時(shí)故障,支持亞健康檢測(cè)、故障快速修復(fù),有效拉長(zhǎng)維護(hù)周期。保證系統(tǒng)高可用的前提下,降低海量數(shù)據(jù)的維護(hù)復(fù)雜度。
解決方案
2019年3月,中國聯(lián)通集團(tuán)信息化部數(shù)據(jù)中心與華為公司成立聯(lián)合工作組,共同推進(jìn)大數(shù)據(jù)系統(tǒng)集約化建設(shè)和國產(chǎn)化技術(shù)創(chuàng)新。
基于大數(shù)據(jù)存算分離技術(shù)的運(yùn)營(yíng)支撐平臺(tái)整體架構(gòu)如下:
華為大數(shù)據(jù)存算分離方案創(chuàng)新性的在存儲(chǔ)層實(shí)現(xiàn)了原生的HDFS的語義,打破了傳統(tǒng)大數(shù)據(jù)平臺(tái)計(jì)算存儲(chǔ)緊耦合的部署架構(gòu),不僅實(shí)現(xiàn)大數(shù)據(jù)平臺(tái)建設(shè)成本的大幅降低,而且通過存儲(chǔ)層全分布式架構(gòu)和協(xié)議融合互通的能力,提升數(shù)據(jù)分析效率,完全滿足中國聯(lián)通對(duì)于大數(shù)據(jù)平臺(tái)的期望和要求。
華為大數(shù)據(jù)存算分離方案創(chuàng)新點(diǎn):
計(jì)算存儲(chǔ)分離,按需擴(kuò)展
在存儲(chǔ)層構(gòu)建了原生HDFS能力,將存儲(chǔ)從服務(wù)器本地盤剝離,形成計(jì)算和存儲(chǔ)完全分離的方案,既滿足業(yè)務(wù)彈性擴(kuò)展需求,又避免資源浪費(fèi),為統(tǒng)一的大數(shù)據(jù)分析平臺(tái)打下技術(shù)基礎(chǔ)。
大比例EC算法,提高存儲(chǔ)資源利用率
在大數(shù)據(jù)存算分離方案中,采用存儲(chǔ)層成熟的EC技術(shù),替代Hadoop的多副本,存儲(chǔ)資源利用率提升到91.6%,同樣的數(shù)據(jù)量,機(jī)柜數(shù)下降45%,大幅節(jié)省了運(yùn)維成本。
全分布式NameNode,海量數(shù)據(jù)統(tǒng)一管理
采用存儲(chǔ)層提供的全分布式的NameNode架構(gòu),每個(gè)節(jié)點(diǎn)既是數(shù)據(jù)存儲(chǔ)節(jié)點(diǎn),也是元數(shù)據(jù)管理節(jié)點(diǎn),單個(gè)NameSpace能夠支撐百億文件的存儲(chǔ),為大數(shù)據(jù)平臺(tái)提供堅(jiān)實(shí)的數(shù)據(jù)存儲(chǔ)底座,很好的支撐了集團(tuán)的數(shù)據(jù)中臺(tái)戰(zhàn)略。
原生HDFS,新老共存,保護(hù)投資
在大數(shù)據(jù)存儲(chǔ)層構(gòu)建了HDFS的納管功能——元數(shù)據(jù)網(wǎng)關(guān),通過納管現(xiàn)網(wǎng)已經(jīng)部署的HDFS,實(shí)現(xiàn)了應(yīng)用層數(shù)據(jù)訪問的統(tǒng)一入口,且支持優(yōu)先寫入存儲(chǔ)層HDFS、基于配置選擇寫入HDFS、負(fù)載均衡寫入HDFS等多種寫入策略,真正做到了業(yè)務(wù)無感知的平滑演進(jìn)。
企業(yè)級(jí)存儲(chǔ)數(shù)據(jù)保護(hù)技術(shù),提升可靠性
在存儲(chǔ)層,采用多故障域技術(shù),每個(gè)故障域都允許4個(gè)節(jié)點(diǎn)同時(shí)故障,上百個(gè)存儲(chǔ)節(jié)點(diǎn)集群,即能夠容忍12個(gè)節(jié)點(diǎn)同時(shí)故障,極大的延長(zhǎng)了維護(hù)周期。當(dāng)出現(xiàn)硬盤或節(jié)點(diǎn)故障時(shí),存儲(chǔ)層提供遠(yuǎn)高于傳統(tǒng)Hadoop的數(shù)據(jù)重構(gòu)速度,將故障修復(fù)時(shí)間從天級(jí)縮減至小時(shí)級(jí),進(jìn)一步加強(qiáng)數(shù)據(jù)層的可靠性。
由于是新技術(shù),中國聯(lián)通聯(lián)合華為制定了非常全面的測(cè)試計(jì)劃,同時(shí)搭建了存算一體和存算分離兩套測(cè)試環(huán)境,采用現(xiàn)網(wǎng)脫敏的真實(shí)業(yè)務(wù)數(shù)據(jù),通過鏡像對(duì)比,從功能、性能、可靠性、可擴(kuò)展性等多個(gè)維度,論證方案的可行性和價(jià)值。經(jīng)過數(shù)個(gè)月的聯(lián)合測(cè)試,測(cè)試結(jié)果得到中國聯(lián)通集團(tuán)信息化部數(shù)據(jù)中心的認(rèn)可,最終促成中國聯(lián)通對(duì)于華為OceanStor存儲(chǔ)Pacific系列的規(guī);少。
客戶價(jià)值
目前,基于存算分離技術(shù)建設(shè)的運(yùn)營(yíng)支撐平臺(tái)已正式上線,已經(jīng)承載了互聯(lián)網(wǎng)分析、IoT、日志等系統(tǒng)15PB的數(shù)據(jù)量,實(shí)現(xiàn)了聯(lián)通各省公司2/3/4/5G xDR、網(wǎng)絡(luò)信令、互聯(lián)網(wǎng)日志、IoT等數(shù)據(jù)的接入分析,日導(dǎo)入數(shù)據(jù)量超過70TB。
存算分離方案給中國聯(lián)通帶來如下顯著價(jià)值:
1) 節(jié)省成本:大幅降低采購和運(yùn)維成本,總TCO降低30%,節(jié)省千萬以上投資;
2) 運(yùn)營(yíng)效率提升:該項(xiàng)目投入運(yùn)營(yíng)后,分析效率提升20%,每年將帶來千萬以上的收入增長(zhǎng)。
3) 提升可靠性:存儲(chǔ)層通過多故障域、快速重構(gòu)、亞健康檢測(cè)等技術(shù),可靠性提升30倍以上。
展望未來
未來,華為將持續(xù)為中國聯(lián)通數(shù)據(jù)基礎(chǔ)設(shè)施創(chuàng)新注入動(dòng)力,結(jié)合華為OceanStor存儲(chǔ)Pacific系列的多協(xié)議融合互通的能力和開放的數(shù)據(jù)分析生態(tài),實(shí)現(xiàn)BOM多域的數(shù)據(jù)融合,突破生產(chǎn)系統(tǒng)和分析系統(tǒng)之間的壁壘,建設(shè)統(tǒng)一的數(shù)據(jù)存儲(chǔ)底座,降低數(shù)據(jù)的存儲(chǔ)成本,加速數(shù)據(jù)流動(dòng);在無狀態(tài)的計(jì)算基礎(chǔ)上,引入更加多樣的計(jì)算引擎,如BI、深度學(xué)習(xí)、圖計(jì)算、時(shí)空分析等新興引擎,快速推陳出新,支撐應(yīng)用系統(tǒng)快速創(chuàng)新。通過持續(xù)創(chuàng)新,共同打造存得下、流得動(dòng)、管得好的數(shù)據(jù)基礎(chǔ)設(shè)施,釋放海量數(shù)據(jù)的價(jià)值。