海量的高校信息資源需要整合,這是當(dāng)前不爭(zhēng)的事實(shí),因?yàn)楦咝P畔①Y源存在著資源分布不均衡、更新維護(hù)成本高、共享程度低和安全性差等一系列問(wèn)題。整合需要解決的首要問(wèn)題就是信息的合理存儲(chǔ),以便實(shí)現(xiàn)對(duì)其高效、安全的訪問(wèn)。與傳統(tǒng)的存儲(chǔ)方式相比,云存儲(chǔ)很好地解決了這個(gè)問(wèn)題。
云存儲(chǔ)(Cloud STorage)是在云計(jì)算(Cloud Computing)概念上延伸和發(fā)展出來(lái)的一個(gè)新的概念,它是指通過(guò)集群應(yīng)用、網(wǎng)格技術(shù)或分布式文件系統(tǒng)等功能,將網(wǎng)絡(luò)中大量各種不同類型的存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,共同對(duì)外提供數(shù)據(jù)存儲(chǔ)和業(yè)務(wù)訪問(wèn)功能的一個(gè)系統(tǒng)。
1 存儲(chǔ)方式的比較
高可靠性:云存儲(chǔ)實(shí)現(xiàn)對(duì)信息的分布式存儲(chǔ),信息被切分為多個(gè)數(shù)據(jù)塊分散存儲(chǔ)在云中的節(jié)點(diǎn)中,實(shí)現(xiàn)了多副本備份機(jī)制,因此安全性要遠(yuǎn)高于傳統(tǒng)的單一甚至帶有鏡像服務(wù)器的信息存儲(chǔ)方式。
訪問(wèn)的高效性:云中的控制節(jié)點(diǎn)通過(guò)"心跳檢測(cè)"不斷地監(jiān)視存儲(chǔ)節(jié)點(diǎn)的狀態(tài),當(dāng)發(fā)現(xiàn)存儲(chǔ)節(jié)點(diǎn)已經(jīng)失效時(shí),控制節(jié)點(diǎn)能夠?qū)⒐ぷ髫?fù)載交給那些運(yùn)行正常的存儲(chǔ)節(jié)點(diǎn)來(lái)完成。同時(shí),由于云中的數(shù)據(jù)是分布式的存儲(chǔ),能夠很好地分擔(dān)存儲(chǔ)和訪問(wèn)的壓力,這些都使得云存儲(chǔ)具有很高訪問(wèn)的效率。
存儲(chǔ)成本低:原先的信息資源的存儲(chǔ)一般使用專業(yè)的存儲(chǔ)設(shè)備,價(jià)格不菲,使得資源存儲(chǔ)的成本也隨之提高。而云中的存儲(chǔ)設(shè)備都是廉價(jià)的商業(yè)機(jī),跟單一的大容量專業(yè)存儲(chǔ)設(shè)備相比較,存儲(chǔ)容量更大,存儲(chǔ)成本更低。
管理便捷:云存儲(chǔ)能夠在軟件層做到自動(dòng)容錯(cuò)而不依賴硬件本身的容錯(cuò),而且將信息資源存儲(chǔ)在云中,有利于對(duì)資源進(jìn)行統(tǒng)一的管理,提高資源的使用率。
另外,云存儲(chǔ)還具有超強(qiáng)的可擴(kuò)展性、不受具體地理位置所限、基于商業(yè)組件、按照使用收費(fèi)(如每G收15美分)、可跨不同應(yīng)用等。所有這些充分體現(xiàn)了云存儲(chǔ)這種方式的優(yōu)越性。
2 基于HDFS的云存儲(chǔ)
2.1 HDFS的引入
目前各大公司都有自己的云存儲(chǔ)產(chǎn)品,如微軟公司的"Windows Live Sky Drive"網(wǎng)絡(luò)移動(dòng)硬盤(pán)服務(wù)、Google公司的"Google Stora ge"的云計(jì)算存儲(chǔ)服務(wù)、亞馬遜的AmazON webservices等。
在眾多的云存儲(chǔ)產(chǎn)品技術(shù)中,HDFS技術(shù)可以實(shí)施運(yùn)行在普通的PC集群上,有效降低存儲(chǔ)成本,該技術(shù)是Google文件系統(tǒng)(GFS)的開(kāi)源實(shí)現(xiàn),是分布式計(jì)算開(kāi)源框架Hadoop的底層實(shí)現(xiàn),Hadoop是Google集群系統(tǒng)的一個(gè)開(kāi)源項(xiàng)目總稱,Google集群系統(tǒng)是使用低成本的成熟技術(shù)構(gòu)建的一個(gè)穩(wěn)定、高性能、高可用性、可擴(kuò)展的系統(tǒng)。Hadoop平臺(tái)雖然是一項(xiàng)新興的技術(shù),但它的發(fā)展非常迅速,已開(kāi)始被應(yīng)用在企業(yè)、高校、科研機(jī)構(gòu)等各個(gè)行業(yè)。文中重點(diǎn)研究HDFS云存儲(chǔ)在高校信息整合中是如何應(yīng)用的。
2.2 HDFS的理論剖析
Hadoop文件系統(tǒng)(Hadoop Distributed File System,HDFS)雖然和現(xiàn)有的文件系統(tǒng)有相似之處,也是可以運(yùn)行在普通的硬件之上的分布式文件系統(tǒng),但是HDFS具有高容錯(cuò)性,可以部署在低成本的硬件之上,可以以流的方式訪問(wèn)文件數(shù)據(jù),從而高吞吐量地對(duì)應(yīng)用程序進(jìn)行訪問(wèn),這些還是和一般的文件系統(tǒng)有區(qū)別的。圖1是HDFS體系結(jié)構(gòu)圖。
圖1 HDFS體系結(jié)構(gòu)圖
研究HDFS的體系結(jié)構(gòu)圖可以得知,名稱節(jié)點(diǎn)上保存這控制數(shù)據(jù)節(jié)點(diǎn)信息的元數(shù)據(jù)。客戶端可以通過(guò)名稱節(jié)點(diǎn)對(duì)元數(shù)據(jù)進(jìn)行操作,也可以直接對(duì)數(shù)據(jù)節(jié)點(diǎn)進(jìn)行讀寫(xiě)。HDFS體系結(jié)構(gòu)是個(gè)主從結(jié)構(gòu),這個(gè)主從結(jié)構(gòu)常由單個(gè)的名稱節(jié)點(diǎn)和多個(gè)數(shù)據(jù)節(jié)點(diǎn)組成,名稱節(jié)點(diǎn)負(fù)責(zé)管理文件命名空間和客戶端訪問(wèn)的主服務(wù)器,而數(shù)據(jù)節(jié)點(diǎn)則負(fù)責(zé)對(duì)存儲(chǔ)進(jìn)行管理,下面來(lái)剖析一下體系結(jié)構(gòu)各部分的功能。
2.2.1 名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)的功能
名稱節(jié)點(diǎn)的功能包括4個(gè)方面:一是管理元數(shù)據(jù)和文件塊:二是管理文件系統(tǒng)的命名空間,包括記錄文件系統(tǒng)元數(shù)據(jù)被修改的情況:三是監(jiān)聽(tīng)客戶端和數(shù)據(jù)節(jié)點(diǎn)請(qǐng)求和處理這些請(qǐng)求?蛻舳耸录容^復(fù)雜,比如名字空間的創(chuàng)建與刪除,文件的創(chuàng)建、刪除和修改等,數(shù)據(jù)節(jié)點(diǎn)的事件包括文件塊信息變化、心跳響應(yīng)等:四是心跳檢測(cè)。所謂心跳檢測(cè),就是數(shù)據(jù)節(jié)點(diǎn)會(huì)定期將自己的負(fù)載情況通過(guò)心跳信息向名稱節(jié)點(diǎn)匯報(bào)。
數(shù)據(jù)節(jié)點(diǎn)的功能包括3個(gè)方面:一是通過(guò)自身服務(wù)進(jìn)程與文件系統(tǒng)客戶端打交道,完成數(shù)據(jù)塊的讀寫(xiě);二是周期性的向名稱節(jié)點(diǎn)發(fā)送信號(hào),報(bào)告本節(jié)點(diǎn)的狀態(tài);三是執(zhí)行數(shù)據(jù)的流水線復(fù)制。
2.2.2 元數(shù)據(jù)和數(shù)據(jù)交互
HDFS體系結(jié)構(gòu)中有三種類型的元數(shù)據(jù)保存在名稱節(jié)點(diǎn)的內(nèi)存中,分別是:文件(包含目錄)的名字空間、文件到文件塊的映射、文件塊的位置信息。這種數(shù)據(jù)結(jié)構(gòu)對(duì)于數(shù)據(jù)訪問(wèn)的效率和安全性都有很大的幫助。
HDFS中數(shù)據(jù)的交互無(wú)外乎數(shù)據(jù)的讀和寫(xiě),重點(diǎn)設(shè)計(jì)的對(duì)象就是客戶端、名稱節(jié)點(diǎn)和數(shù)據(jù)節(jié)點(diǎn)。客戶端首先從名稱節(jié)點(diǎn)中讀取對(duì)應(yīng)的文件塊信息,再和數(shù)據(jù)節(jié)點(diǎn)建立連接并獲取數(shù)據(jù),圖2具體描述了數(shù)據(jù)讀取過(guò)程。
圖2HDFS 數(shù)據(jù)讀取過(guò)程
HDFS的數(shù)據(jù)寫(xiě)入過(guò)程比讀取過(guò)程細(xì)節(jié)上更為復(fù)雜一些,但是模型圖非常類似。除了數(shù)據(jù)的讀寫(xiě),維護(hù)數(shù)據(jù)的可用性和一致性也是系統(tǒng)最基本的要求和重要的功能。一般來(lái)說(shuō),系統(tǒng)通過(guò)數(shù)據(jù)復(fù)制、節(jié)點(diǎn)故障、數(shù)據(jù)校驗(yàn)、垃圾回收機(jī)制來(lái)維護(hù)數(shù)據(jù)的可用性和一致性。
3 HDFS的云存儲(chǔ)應(yīng)用于整合高校信息資源
3.1 系統(tǒng)分析與設(shè)計(jì)
目前高校信息資源面臨著空前的海量數(shù)據(jù)管理難題,存儲(chǔ)數(shù)據(jù)的成本在不斷增加,而且信息的安全性也亟待提高。因此要借用云存儲(chǔ)這種新的工作模式來(lái)解決這個(gè)問(wèn)題。根據(jù)高校的特殊情況,結(jié)合云存儲(chǔ)的優(yōu)點(diǎn),要設(shè)計(jì)一個(gè)成功的云存儲(chǔ)案例,需要考慮這么幾個(gè)方面:
1)低成本海量存儲(chǔ) 將數(shù)據(jù)存儲(chǔ)在一般的個(gè)人電腦構(gòu)成的網(wǎng)絡(luò)中,并進(jìn)行合理調(diào)配,構(gòu)成一個(gè)有機(jī)海量存儲(chǔ)設(shè)備。
2)高效率的訪問(wèn) 數(shù)據(jù)盡可能的存儲(chǔ)在不同的數(shù)據(jù)節(jié)點(diǎn)中,當(dāng)客戶端對(duì)信息進(jìn)行請(qǐng)求時(shí),能高效的回復(fù),并做到并發(fā)。
3)安全性高 每個(gè)文件都會(huì)有多個(gè)副本分別存儲(chǔ)在多個(gè)數(shù)據(jù)節(jié)點(diǎn)上。如果某個(gè)數(shù)據(jù)節(jié)點(diǎn)出現(xiàn)問(wèn)題,不會(huì)發(fā)生文件丟失的現(xiàn)象。
3.2 系統(tǒng)功能設(shè)計(jì)
高校相對(duì)于云存儲(chǔ)系統(tǒng)是一個(gè)用戶,而高校內(nèi)部有多個(gè)部門(mén),相對(duì)于云存儲(chǔ)系統(tǒng)的用戶高校來(lái)說(shuō)是一個(gè)子用戶。云存儲(chǔ)系統(tǒng)能夠創(chuàng)建、管理、維護(hù)高校云存儲(chǔ)用戶;高校云用戶能夠創(chuàng)建、管理、維護(hù)各部門(mén)子用戶。而子用戶才是真正的終端信息存儲(chǔ)用戶,他們上傳、下載、刪除數(shù)據(jù)信息。由于我們的這個(gè)系統(tǒng)是基于HDFS的,而一個(gè)基本的HDFS由一個(gè)NameNode和n個(gè)DataNode組成,云存儲(chǔ)系統(tǒng)是由多個(gè)地方的HDFS存儲(chǔ)設(shè)備通過(guò)應(yīng)用軟件集合起來(lái)協(xié)同工作,完成外部訪問(wèn)請(qǐng)求?梢詫⒈疚拿枋龅姆植际轿募到y(tǒng)(DFS)抽象成一個(gè)三級(jí)模型,如圖3所示。
圖3 系統(tǒng)結(jié)構(gòu)圖
根據(jù)系統(tǒng)結(jié)構(gòu)圖可以清楚看到本文描述的分布式文件系統(tǒng)(DFS)的業(yè)務(wù)邏輯模型:終端網(wǎng)絡(luò)發(fā)出信息存取訪問(wèn)請(qǐng)求,DFS通過(guò)封裝與HDFS通信協(xié)議的Client客戶端與基于HDFS的云存儲(chǔ)系統(tǒng)進(jìn)行通信,完成對(duì)信息的訪問(wèn)。HDFS存儲(chǔ)業(yè)務(wù)以云狀分布在網(wǎng)絡(luò)的各個(gè)部分,它具有容量大、性能高、可靠性好、協(xié)同優(yōu)良的特點(diǎn),正是這些特點(diǎn),完成了高校信息資源高效訪問(wèn)與存儲(chǔ)。
4 結(jié)論
基于HDFS的云存儲(chǔ)是一種動(dòng)態(tài)可調(diào)整、基于互聯(lián)網(wǎng)的存儲(chǔ)解決方案,用戶可以通過(guò)通用和易用協(xié)議和應(yīng)用程序接口通過(guò)網(wǎng)絡(luò)訪問(wèn)存儲(chǔ)目標(biāo),這種新技術(shù)對(duì)最終用戶來(lái)說(shuō)很有好處。云存儲(chǔ)可以讓用戶很容易增加存儲(chǔ)容量,而且不需要購(gòu)買(mǎi)、安裝和管理任何存儲(chǔ)基礎(chǔ)設(shè)施,卻提供了一個(gè)完善的備份、容災(zāi)數(shù)據(jù)中心。云存儲(chǔ)的成本和易用性優(yōu)勢(shì)對(duì)高校具有很強(qiáng)的吸引力,發(fā)展和應(yīng)用前景廣闊。
作者:陳濤 來(lái)源:《電子設(shè)計(jì)工程》