實(shí)現(xiàn)數(shù)據(jù)網(wǎng)格的關(guān)鍵技術(shù)

  在現(xiàn)代科學(xué)研究和應(yīng)用領(lǐng)域中,大量的數(shù)據(jù)是重要的資源,例如全球氣候模擬、高能物理、生物計(jì)算、戰(zhàn)場(chǎng)仿真、核模擬、數(shù)字地球、大規(guī)模的信息和決策支持系統(tǒng)等應(yīng)用,其數(shù)據(jù)量將達(dá)到幾十TeraByte至PetaBy te的級(jí)別。地理上廣泛分布的該領(lǐng)域的科研工作者或用戶都希望能夠訪問(wèn)和分析這些龐大的數(shù)據(jù),但其分析方法往往是計(jì)算復(fù)雜、計(jì)算量大,許多數(shù)據(jù)分析處理要求千億次或萬(wàn)億次規(guī)模的計(jì)算能力。而現(xiàn)有的數(shù)據(jù)管理體系結(jié)構(gòu)、方法和技術(shù)已經(jīng)不能滿足人們對(duì)高性能、大容量分布存儲(chǔ)和分布處理能力的要求。因此,在計(jì)算網(wǎng)格的基礎(chǔ)上人們提出了數(shù)據(jù)網(wǎng)格(Data Grid)的構(gòu)想,以解決上述應(yīng)用所面臨的問(wèn)題。

  元數(shù)據(jù)管理和信息服務(wù)

  良好地表示、存儲(chǔ)、訪問(wèn)和使用大量資源信息是數(shù)據(jù)網(wǎng)格運(yùn)行的基本前提。在數(shù)據(jù)網(wǎng)格計(jì)算中,資源是分布的,資源及其提供者也是分布的,這些資源包括數(shù)據(jù)、計(jì)算機(jī)、設(shè)備、網(wǎng)絡(luò)、外設(shè)、軟件、服務(wù)、代碼、人員等。元數(shù)據(jù)管理服務(wù)命名、描述、收集、組織和管理數(shù)據(jù)網(wǎng)格中的資源信息,這些信息就是用于描述資源、方法、數(shù)據(jù)集和用戶的元數(shù)據(jù)。信息服務(wù)是元數(shù)據(jù)管理對(duì)外提供的基本服務(wù)。它實(shí)現(xiàn)新資源實(shí)體的注冊(cè)和發(fā)布,支持資源相關(guān)性的發(fā)布,可以注冊(cè)與已注冊(cè)實(shí)體間的相互約束和相互聯(lián)系信息。

  因此,在數(shù)據(jù)網(wǎng)格計(jì)算中,需要建立靈活的、可擴(kuò)展的信息服務(wù)體系結(jié)構(gòu)。這種體系結(jié)構(gòu)應(yīng)當(dāng)保證資源信息提供者的廣泛分布性和信息服務(wù)的分布特性,避免由于單個(gè)信息服務(wù)實(shí)體的失敗導(dǎo)致其他資源信息服務(wù)不能正常提供服務(wù)。

  元數(shù)據(jù)可以分為系統(tǒng)元數(shù)據(jù)(System Metadata)、復(fù)制元數(shù)據(jù)(Replica Metadata)和應(yīng)用元數(shù)據(jù)(Application Metadata)。系統(tǒng)元數(shù)據(jù)記錄數(shù)據(jù)網(wǎng)格自身的結(jié)構(gòu)信息,諸如網(wǎng)絡(luò)互聯(lián)情況、存儲(chǔ)系統(tǒng)的容量、計(jì)算機(jī)空閑情況、使用策略等。復(fù)制元數(shù)據(jù)記錄與數(shù)據(jù)副本有關(guān)的信息,如文件與具體存儲(chǔ)系統(tǒng)之間的映射信息。應(yīng)用元數(shù)據(jù)是與具體應(yīng)用相關(guān)的文件邏輯結(jié)構(gòu)或語(yǔ)義信息,如數(shù)據(jù)的內(nèi)容和結(jié)構(gòu)、獲取數(shù)據(jù)的必要條件等。為了實(shí)現(xiàn)命名、定位和訪問(wèn)的透明性,網(wǎng)格需要有效地管理數(shù)量繁多的名字和屬性,以及它們之間的關(guān)系,需要一種統(tǒng)一的全局命名方式,需要管理數(shù)據(jù)集的定位信息,需要有效管理數(shù)據(jù)資源存儲(chǔ)形式等相關(guān)信息。同時(shí),也需要管理系統(tǒng)資源的安全、授權(quán)、訪問(wèn)控制等信息。

  網(wǎng)格中的所有元數(shù)據(jù)構(gòu)成元數(shù)據(jù)目錄,它采用統(tǒng)一的結(jié)構(gòu)來(lái)描述元數(shù)據(jù)。無(wú)論使用何種結(jié)構(gòu),元數(shù)據(jù)目錄應(yīng)當(dāng)滿足兩點(diǎn):其一,它應(yīng)該是一種層次和分布式目錄結(jié)構(gòu)系統(tǒng),如LDAP;其二,它應(yīng)當(dāng)不破壞現(xiàn)有系統(tǒng)的元數(shù)據(jù)描述方法,并能與它們很好地交互、融合。

  數(shù)據(jù)訪問(wèn)

  數(shù)據(jù)網(wǎng)格中的數(shù)據(jù)資源各種各樣,表示、存儲(chǔ)的形式也各不同。一些數(shù)據(jù)可能以文件形式存儲(chǔ);一些數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)中;另一些存儲(chǔ)在如同HPSS的Archive檔案系統(tǒng)中;還有一些數(shù)據(jù)是由多個(gè)分布存儲(chǔ)系統(tǒng)中的數(shù)據(jù)組成的。如何才能方便有效地訪問(wèn)各種異構(gòu)數(shù)據(jù)組成的數(shù)據(jù)集合是數(shù)據(jù)網(wǎng)格的一個(gè)主要功能和關(guān)鍵技術(shù)。

  如果為每一種數(shù)據(jù)存儲(chǔ)方式提供一種訪問(wèn)方法,用戶是不可能接受的。因此,數(shù)據(jù)網(wǎng)格必須抽象各種數(shù)據(jù)存儲(chǔ)系統(tǒng),形成一個(gè)抽象模型,為不同的數(shù)據(jù)存儲(chǔ)系統(tǒng)提供統(tǒng)一的數(shù)據(jù)訪問(wèn)接口。數(shù)據(jù)訪問(wèn)服務(wù)的作用就是將存儲(chǔ)、檢索數(shù)據(jù)集等高層用戶的請(qǐng)求映射為異構(gòu)分布式存儲(chǔ)環(huán)境中的底層存儲(chǔ)訪問(wèn)操作,實(shí)現(xiàn)廣域范圍內(nèi)對(duì)數(shù)據(jù)有效的統(tǒng)一訪問(wèn)和管理。

  復(fù)制管理

   數(shù)據(jù)網(wǎng)格的數(shù)據(jù)經(jīng)常需要復(fù)制,復(fù)制本質(zhì)上是對(duì)數(shù)據(jù)的緩存。雖然網(wǎng)絡(luò)速度提高很快,但要達(dá)到高性能地頻繁訪問(wèn)和處理大量遠(yuǎn)程數(shù)據(jù)仍然很困難。復(fù)制技術(shù)為用戶應(yīng)用提供一個(gè)能夠快速訪問(wèn)和處理遠(yuǎn)程數(shù)據(jù)的局部緩沖數(shù)據(jù)拷貝,避免大量數(shù)據(jù)遠(yuǎn)程傳輸?shù)綉?yīng)用端。復(fù)制管理應(yīng)具有以下一些功能:

  ● 創(chuàng)建一個(gè)完整的或部分的數(shù)據(jù)集拷貝;

  ● 提供選擇數(shù)據(jù)復(fù)制策略、復(fù)制方式和復(fù)制地點(diǎn)的能力;

  ● 在復(fù)制目錄中注冊(cè)新的數(shù)據(jù)拷貝;

  ● 允許用戶和應(yīng)用查詢復(fù)制目錄,以便找到某個(gè)文件或數(shù)據(jù)集已存在的數(shù)據(jù)拷貝;

  ● 根據(jù)用戶和應(yīng)用的執(zhí)行要求,以及存儲(chǔ)、網(wǎng)絡(luò)的性能預(yù)測(cè),有方法和能力選擇“最好”的數(shù)據(jù)副本進(jìn)行訪問(wèn)和處理;

   ● 數(shù)據(jù)復(fù)制之間的數(shù)據(jù)一致性和更新一直是分布式數(shù)據(jù)管理的難點(diǎn),它與應(yīng)用數(shù)據(jù)訪問(wèn)、產(chǎn)生、操作特性緊密相關(guān)。

  在這里,復(fù)制目錄的結(jié)構(gòu)必須靈活和可擴(kuò)展,以免影響性能的發(fā)揮。復(fù)制管理的幾個(gè)功能模塊應(yīng)當(dāng)采用分離設(shè)計(jì)方法,并可替換。

  高速數(shù)據(jù)傳輸機(jī)制

  數(shù)據(jù)網(wǎng)格計(jì)算涉及大量數(shù)據(jù)的移動(dòng)、傳輸和復(fù)制,這就需要一種高效的數(shù)據(jù)傳輸機(jī)制的支持,這種傳輸機(jī)制要保證在廣域網(wǎng)絡(luò)的環(huán)境上可靠地傳輸數(shù)據(jù)。高速數(shù)據(jù)傳輸機(jī)制應(yīng)支持以下幾種功能:

  ● 高速數(shù)據(jù)傳輸 要支持廣泛接受的協(xié)議和廣域網(wǎng)絡(luò)上的數(shù)據(jù)傳輸,可以采用并行數(shù)據(jù)傳輸機(jī)制等;

   ● 分塊數(shù)據(jù)傳輸 數(shù)據(jù)網(wǎng)格支持各種數(shù)據(jù)存儲(chǔ)形式,一些數(shù)據(jù)集的數(shù)據(jù)本身是廣泛分布的,因此,需要支持多個(gè)分?jǐn)?shù)據(jù)塊的并發(fā)數(shù)據(jù)傳輸,匯總后形成一個(gè)完整的數(shù)據(jù)集;

  ● 部分?jǐn)?shù)據(jù)的傳輸 用戶和應(yīng)用經(jīng)常需要數(shù)據(jù)集中的一部分?jǐn)?shù)據(jù),而不是整個(gè)數(shù)據(jù)集,例如一個(gè)文件中的一段數(shù)據(jù),因此支持這種數(shù)據(jù)的傳輸方式是必要的;

  ● 第三方數(shù)據(jù)傳輸 許多應(yīng)用需要用到多個(gè)資源,必須提供一種機(jī)制,允許一個(gè)地點(diǎn)的用戶和應(yīng)用能夠啟動(dòng)、監(jiān)視和控制其他兩個(gè)地點(diǎn)存儲(chǔ)系統(tǒng)的數(shù)據(jù)傳輸,為應(yīng)用使用多個(gè)地點(diǎn)的資源提供保障;

  ● 可靠、可重啟、斷點(diǎn)續(xù)傳 在廣域網(wǎng)絡(luò)環(huán)境下,數(shù)據(jù)傳輸故障和服務(wù)器故障經(jīng)常發(fā)生,導(dǎo)致傳輸中斷。因此,數(shù)據(jù)傳輸?shù)腻e(cuò)誤恢復(fù)機(jī)制至關(guān)重要。

  資源調(diào)度優(yōu)化與遠(yuǎn)程執(zhí)行

  在網(wǎng)格計(jì)算中,資源的調(diào)度優(yōu)化和服務(wù)執(zhí)行是一個(gè)關(guān)鍵技術(shù)問(wèn)題,它主要包括請(qǐng)求的調(diào)度優(yōu)化、資源的調(diào)度優(yōu)化和資源的服務(wù)執(zhí)行。請(qǐng)求的調(diào)度優(yōu)化要對(duì)用戶資源請(qǐng)求與可用資源進(jìn)行匹配,當(dāng)眾多用戶和應(yīng)用請(qǐng)求同時(shí)到達(dá),就必須統(tǒng)籌優(yōu)化安排多個(gè)請(qǐng)求的資源需求。

  遠(yuǎn)程執(zhí)行服務(wù)機(jī)制保證多個(gè)地點(diǎn)的系統(tǒng)能夠遠(yuǎn)程啟動(dòng)執(zhí)行,能夠監(jiān)控、收集和查詢狀態(tài)信息,控制地理上分布的多個(gè)系統(tǒng)的任務(wù)執(zhí)行過(guò)程。

  安全技術(shù)

  在廣域網(wǎng)絡(luò)上部署計(jì)算,安全保證是至關(guān)重要的。網(wǎng)格安全機(jī)制將提供基本的安全保護(hù)驗(yàn)證機(jī)制,以驗(yàn)證合法的用戶和資源,并為其他安全服務(wù)提供接口,允許用戶選擇不同的安全策略、安全級(jí)別和加密方法,提供底層基礎(chǔ)的安全設(shè)施,這是網(wǎng)格計(jì)算的要求和特點(diǎn)。

  在數(shù)據(jù)網(wǎng)格中,由于數(shù)據(jù)的復(fù)制和緩沖導(dǎo)致了數(shù)據(jù)網(wǎng)格特有的安全性問(wèn)題:一個(gè)站點(diǎn)緩沖了位于另一個(gè)地點(diǎn)系統(tǒng)中的數(shù)據(jù),兩個(gè)系統(tǒng)之間的安全保護(hù)機(jī)制、措施和安全級(jí)別不同,如何達(dá)到數(shù)據(jù)擁有者所要求的數(shù)據(jù)保護(hù)安全級(jí)別和策略是一個(gè)非常困難的問(wèn)題。

   21世紀(jì)前期的信息基礎(chǔ)設(shè)施將以Terascale規(guī)模(萬(wàn)億:Terabits的通信能力、Teraflops以上的計(jì)算處理能力、Terabytes甚至Petabytess規(guī)模的數(shù)據(jù)和萬(wàn)億個(gè)傳感器或設(shè)備)為目標(biāo),科學(xué)計(jì)算領(lǐng)域下一個(gè)十年將是“數(shù)據(jù)十年”,數(shù)據(jù)網(wǎng)格計(jì)算技術(shù)的研究既迫切又重大。IT行業(yè)是按照Internet的速度向前發(fā)展,因此,在下一個(gè)以高速Internet 為基礎(chǔ)的網(wǎng)格計(jì)算應(yīng)用浪潮到來(lái)之前,我們必須現(xiàn)在開(kāi)始把握和實(shí)踐網(wǎng)格計(jì)算技術(shù)和應(yīng)用。

摘自《計(jì)算機(jī)世界》


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書(shū)
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書(shū)-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無(wú)線接入網(wǎng)白皮書(shū)
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書(shū)》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5GNTN技術(shù)白皮書(shū)
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書(shū)
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息