百科解釋
容災(zāi)系統(tǒng)是指在相隔較遠(yuǎn)的異地,建立兩套或多套功能相同的IT系統(tǒng),互相之間可以進(jìn)行健康狀態(tài)監(jiān)視和功能切換,當(dāng)一處系統(tǒng)因意外(如火災(zāi)、地震等)停止工作時(shí),整個(gè)應(yīng)用系統(tǒng)可以切換到另一處,使得該系統(tǒng)功能可以繼續(xù)正常工作。容災(zāi)技術(shù)是系統(tǒng)的高可用性技術(shù)的一個(gè)組成部分,容災(zāi)系統(tǒng)更加強(qiáng)調(diào)處理外界環(huán)境對(duì)系統(tǒng)的影響,特別是災(zāi)難性事件對(duì)整個(gè)IT節(jié)點(diǎn)的影響,提供節(jié)點(diǎn)級(jí)別的系統(tǒng)恢復(fù)功能。 從其對(duì)系統(tǒng)的保護(hù)程度來(lái)分,可以將容災(zāi)系統(tǒng)分為:數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi),描述如下: .數(shù)據(jù)容災(zāi)就是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)實(shí)時(shí)復(fù)制。 .應(yīng)用容災(zāi)是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以是互為備份),在災(zāi)難情況下,遠(yuǎn)程系統(tǒng)迅速接管業(yè)務(wù)運(yùn)行。數(shù)據(jù)容災(zāi)是抗御災(zāi)難的保障,而應(yīng)用容災(zāi)則是容災(zāi)系統(tǒng)建設(shè)的目標(biāo)。 數(shù)據(jù)容災(zāi) 所謂數(shù)據(jù)容災(zāi),就是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是本地關(guān)鍵應(yīng)用數(shù)據(jù)的一個(gè)可用復(fù)制。在本地?cái)?shù)據(jù)及整個(gè)應(yīng)用系統(tǒng)出現(xiàn)災(zāi)難時(shí),系統(tǒng)至少在異地保存有一份可用的關(guān)鍵業(yè)務(wù)的數(shù)據(jù)。該數(shù)據(jù)可以是與本地生產(chǎn)數(shù)據(jù)的完全實(shí)時(shí)復(fù)制,也可以比本地?cái)?shù)據(jù)略微落后,但一定是可用的。采用的主要技術(shù)是數(shù)據(jù)備份和數(shù)據(jù)復(fù)制技術(shù)。 數(shù)據(jù)容災(zāi)技術(shù),又稱為異地?cái)?shù)據(jù)復(fù)制技術(shù),按照其實(shí)現(xiàn)的技術(shù)方式來(lái)說(shuō),主要可以分為同步傳輸方式和異步異步傳輸方式(各廠商在技術(shù)用語(yǔ)上可能有所不同),另外,也有如“半同步”這樣的方式。半同步傳輸方式基本與同步傳輸方式相同,只是在Read占I/O比重比較大時(shí),相對(duì)同步傳輸方式,可以略微提高I/O的速度。而根據(jù)容災(zāi)的距離,數(shù)據(jù)容災(zāi)又可以分成遠(yuǎn)程數(shù)據(jù)容災(zāi)和近程數(shù)據(jù)容災(zāi)方式。下面,我們將主要按同步傳輸方式和異步異步傳輸方式對(duì)數(shù)據(jù)容災(zāi)展開(kāi)討論,其中也會(huì)涉及到遠(yuǎn)程容災(zāi)和近程容災(zāi)的概念,并作相應(yīng)的分析。 應(yīng)用容災(zāi) 所謂應(yīng)用容災(zāi),是在數(shù)據(jù)容災(zāi)的基礎(chǔ)上,在異地建立一套完整的與本地生產(chǎn)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以是互為備份)。建立這樣一個(gè)系統(tǒng)是相對(duì)比較復(fù)雜的,不僅需要一份可用的數(shù)據(jù)復(fù)制,還要有包括網(wǎng)絡(luò)、主機(jī)、應(yīng)用、甚至IP等資源,以及各資源之間的良好協(xié)調(diào)。主要的技術(shù)包括負(fù)載均衡、集群技術(shù)。數(shù)據(jù)容災(zāi)是應(yīng)用容災(zāi)的技術(shù),應(yīng)用容災(zāi)是數(shù)據(jù)容災(zāi)的目標(biāo)。 在選擇容災(zāi)系統(tǒng)的構(gòu)造時(shí),還要建立多層次的廣域網(wǎng)絡(luò)故障切換機(jī)制。本地的高可用系統(tǒng)指在多個(gè)服務(wù)器運(yùn)行一個(gè)或多種應(yīng)用的情況下,應(yīng)確保任意服務(wù)器出現(xiàn)任何故障時(shí),其運(yùn)行的應(yīng)用不能中斷,應(yīng)用程序和系統(tǒng)應(yīng)能迅速切換到其它服務(wù)器上運(yùn)行,即本地系統(tǒng)集群和熱備份。 在遠(yuǎn)程的容災(zāi)系統(tǒng)中,要實(shí)現(xiàn)完整的應(yīng)用容災(zāi),既要包含本地系統(tǒng)的安全機(jī)制、遠(yuǎn)程的數(shù)據(jù)復(fù)制機(jī)制,還應(yīng)具有廣域網(wǎng)范圍的遠(yuǎn)程故障切換能力和故障診斷能力。也就是說(shuō),一旦故障發(fā)生,系統(tǒng)要有強(qiáng)大的故障診斷和切換策略制訂機(jī)制,確?焖俚姆磻(yīng)和迅速的業(yè)務(wù)接管。實(shí)際上,廣域網(wǎng)范圍的高可用能力與本地系統(tǒng)的高可用能力應(yīng)形成一個(gè)整體,實(shí)現(xiàn)多級(jí)的故障切換和恢復(fù)機(jī)制,確保系統(tǒng)在各個(gè)范圍的可靠和安全。 集群系統(tǒng)是在冗余的通?捎眯韵到y(tǒng)基礎(chǔ)之上,運(yùn)行高可靠性軟件而構(gòu)成。高可靠性軟件用于自動(dòng)檢測(cè)系統(tǒng)的運(yùn)行狀態(tài),在一臺(tái)服務(wù)器出現(xiàn)故障的情況下,自動(dòng)地把設(shè)定的服務(wù)轉(zhuǎn)到另一臺(tái)服務(wù)器上。當(dāng)運(yùn)行服務(wù)器提供的服務(wù)不可用時(shí),備份服務(wù)器自動(dòng)接替運(yùn)行服務(wù)器的工作而不用重新啟動(dòng)系統(tǒng),而當(dāng)運(yùn)行服務(wù)器恢復(fù)正常后,按照使用者的設(shè)定以自動(dòng)或手動(dòng)方式將服務(wù)切換到運(yùn)行服務(wù)上運(yùn)行。備份服務(wù)器除了在運(yùn)行服務(wù)器出現(xiàn)故障時(shí)接替其服務(wù),還可以執(zhí)行其他應(yīng)用程序。因此,一臺(tái)性能配備充分的主機(jī)可同時(shí)作為某一服務(wù)的運(yùn)行服務(wù)器和另一服務(wù)的備份服務(wù)器使用,即兩臺(tái)服務(wù)器互為備份。一臺(tái)主機(jī)可以運(yùn)行多個(gè)服務(wù),也可作為多個(gè)服務(wù)的備份服務(wù)器。 數(shù)據(jù)容災(zāi)系統(tǒng),對(duì)于IT而言,就是為計(jì)算機(jī)信息系統(tǒng)提供的一個(gè)能應(yīng)付各種災(zāi)難的環(huán)境。當(dāng)計(jì)算機(jī)系統(tǒng)在遭受如火災(zāi)、水災(zāi)、地震、戰(zhàn)爭(zhēng)等不可抗拒的自然災(zāi)難以及計(jì)算機(jī)犯罪、計(jì)算機(jī)病毒、掉電、網(wǎng)絡(luò)/通信失敗、硬件/軟件錯(cuò)誤和人為操作錯(cuò)誤等人為災(zāi)難時(shí),容災(zāi)系統(tǒng)將保證用戶數(shù)據(jù)的安全性(數(shù)據(jù)容災(zāi)),甚至,一個(gè)更加完善的容災(zāi)系統(tǒng),還能提供不間斷的應(yīng)用服務(wù)(應(yīng)用容災(zāi))?梢哉f(shuō),容災(zāi)系統(tǒng)是數(shù)據(jù)存儲(chǔ)備份的最高層次。 數(shù)據(jù)容災(zāi)備份的等級(jí) 容災(zāi)備份是通過(guò)在異地建立和維護(hù)一個(gè)備份存儲(chǔ)系統(tǒng),利用地理上的分離來(lái)保證系統(tǒng)和數(shù)據(jù)對(duì)災(zāi)難性事件的抵御能力。 根據(jù)容災(zāi)系統(tǒng)對(duì)災(zāi)難的抵抗程度,可分為數(shù)據(jù)容災(zāi)和應(yīng)用容災(zāi)。數(shù)據(jù)容災(zāi)是指建立一個(gè)異地的數(shù)據(jù)系統(tǒng),該系統(tǒng)是對(duì)本地系統(tǒng)關(guān)鍵應(yīng)用數(shù)據(jù)實(shí)時(shí)復(fù)制。當(dāng)出現(xiàn)災(zāi)難時(shí),可由異地系統(tǒng)迅速接替本地系統(tǒng)而保證業(yè)務(wù)的連續(xù)性。應(yīng)用容災(zāi)比數(shù)據(jù)容災(zāi)層次更高,即在異地建立一套完整的、與本地?cái)?shù)據(jù)系統(tǒng)相當(dāng)?shù)膫浞輵?yīng)用系統(tǒng)(可以同本地應(yīng)用系統(tǒng)互為備份,也可與本地應(yīng)用系統(tǒng)共同工作)。在災(zāi)難出現(xiàn)后,遠(yuǎn)程應(yīng)用系統(tǒng)迅速接管或承擔(dān)本地應(yīng)用系統(tǒng)的業(yè)務(wù)運(yùn)行。 設(shè)計(jì)一個(gè)容災(zāi)備份系統(tǒng),需要考慮多方面的因素,如備份/恢復(fù)數(shù)據(jù)量大小、應(yīng)用數(shù)據(jù)中心和備援?dāng)?shù)據(jù)中心之間的距離和數(shù)據(jù)傳輸方式、災(zāi)難發(fā)生時(shí)所要求的恢復(fù)速度、備援中心的管理及投入資金等。根據(jù)這些因素和不同的應(yīng)用場(chǎng)合,通常可將容災(zāi)備份分為四個(gè)等級(jí)。 第0級(jí):沒(méi)有備援中心 這一級(jí)容災(zāi)備份,實(shí)際上沒(méi)有災(zāi)難恢復(fù)能力,它只在本地進(jìn)行數(shù)據(jù)備份,并且被備份的數(shù)據(jù)只在本地保存,沒(méi)有送往異地。 第1級(jí):本地磁帶備份,異地保存 在本地將關(guān)鍵數(shù)據(jù)備份,然后送到異地保存。災(zāi)難發(fā)生后,按預(yù)定數(shù)據(jù)恢復(fù)程序恢復(fù)系統(tǒng)和數(shù)據(jù)。這種方案成本低、易于配置。但當(dāng)數(shù)據(jù)量增大時(shí),存在存儲(chǔ)介質(zhì)難管理的問(wèn)題,并且當(dāng)災(zāi)難發(fā)生時(shí)存在大量數(shù)據(jù)難以及時(shí)恢復(fù)的問(wèn)題。為了解決此問(wèn)題,災(zāi)難發(fā)生時(shí),先恢復(fù)關(guān)鍵數(shù)據(jù),后恢復(fù)非關(guān)鍵數(shù)據(jù)。 第2級(jí):熱備份站點(diǎn)備份 在異地建立一個(gè)熱備份點(diǎn),通過(guò)網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)備份。也就是通過(guò)網(wǎng)絡(luò)以同步或異步方式,把主站點(diǎn)的數(shù)據(jù)備份到備份站點(diǎn),備份站點(diǎn)一般只備份數(shù)據(jù),不承擔(dān)業(yè)務(wù)。當(dāng)出現(xiàn)災(zāi)難時(shí),備份站點(diǎn)接替主站點(diǎn)的業(yè)務(wù),從而維護(hù)業(yè)務(wù)運(yùn)行的連續(xù)性。 第3級(jí):活動(dòng)備援中心 在相隔較遠(yuǎn)的地方分別建立兩個(gè)數(shù)據(jù)中心,它們都處于工作狀態(tài),并進(jìn)行相互數(shù)據(jù)備份。當(dāng)某個(gè)數(shù)據(jù)中心發(fā)生災(zāi)難時(shí),另一個(gè)數(shù)據(jù)中心接替其工作任務(wù)。這種級(jí)別的備份根據(jù)實(shí)際要求和投入資金的多少,又可分為兩種:①兩個(gè)數(shù)據(jù)中心之間只限于關(guān)鍵數(shù)據(jù)的相互備份;②兩個(gè)數(shù)據(jù)中心之間互為鏡像,即零數(shù)據(jù)丟失等。零數(shù)據(jù)丟失是目前要求最高的一種容災(zāi)備份方式,它要求不管什么災(zāi)難發(fā)生,系統(tǒng)都能保證數(shù)據(jù)的安全。所以,它需要配置復(fù)雜的管理軟件和專用的硬件設(shè)備,需要投資相對(duì)而言是最大的,但恢復(fù)速度也是最快的。 容災(zāi)備份的關(guān)鍵技術(shù) 在建立容災(zāi)備份系統(tǒng)時(shí)會(huì)涉及到多種技術(shù),如:SAN或NAS技術(shù)、遠(yuǎn)程鏡像技術(shù)、基于IP的SAN的互連技術(shù)、快照技術(shù)等。這里重點(diǎn)介紹遠(yuǎn)程鏡像、快照和互連技術(shù)。 1. 遠(yuǎn)程鏡像技術(shù) 遠(yuǎn)程鏡像技術(shù)是在主數(shù)據(jù)中心和備援中心之間的數(shù)據(jù)備份時(shí)用到。鏡像是在兩個(gè)或多個(gè)磁盤或磁盤子系統(tǒng)上產(chǎn)生同一個(gè)數(shù)據(jù)的鏡像視圖的信息存儲(chǔ)過(guò)程,一個(gè)叫主鏡像系統(tǒng),另一個(gè)叫從鏡像系統(tǒng)。按主從鏡像存儲(chǔ)系統(tǒng)所處的位置可分為本地鏡像和遠(yuǎn)程鏡像。遠(yuǎn)程鏡像又叫遠(yuǎn)程復(fù)制,是容災(zāi)備份的核心技術(shù),同時(shí)也是保持遠(yuǎn)程數(shù)據(jù)同步和實(shí)現(xiàn)災(zāi)難恢復(fù)的基礎(chǔ)。遠(yuǎn)程鏡像按請(qǐng)求鏡像的主機(jī)是否需要遠(yuǎn)程鏡像站點(diǎn)的確認(rèn)信息,又可分為同步遠(yuǎn)程鏡像和異步遠(yuǎn)程鏡像。 同步遠(yuǎn)程鏡像(同步復(fù)制技術(shù))是指通過(guò)遠(yuǎn)程鏡像軟件,將本地?cái)?shù)據(jù)以完全同步的方式復(fù)制到異地,每一本地的I/O事務(wù)均需等待遠(yuǎn)程復(fù)制的完成確認(rèn)信息,方予以釋放。同步鏡像使遠(yuǎn)程拷貝總能與本地機(jī)要求復(fù)制的內(nèi)容相匹配。當(dāng)主站點(diǎn)出現(xiàn)故障時(shí),用戶的應(yīng)用程序切換到備份的替代站點(diǎn)后,被鏡像的遠(yuǎn)程副本可以保證業(yè)務(wù)繼續(xù)執(zhí)行而沒(méi)有數(shù)據(jù)的丟失。但它存在往返傳播造成延時(shí)較長(zhǎng)的缺點(diǎn),只限于在相對(duì)較近的距離上應(yīng)用。 異步遠(yuǎn)程鏡像(異步復(fù)制技術(shù))保證在更新遠(yuǎn)程存儲(chǔ)視圖前完成向本地存儲(chǔ)系統(tǒng)的基本I/O操作,而由本地存儲(chǔ)系統(tǒng)提供給請(qǐng)求鏡像主機(jī)的I/O操作完成確認(rèn)信息。遠(yuǎn)程的數(shù)據(jù)復(fù)制是以后臺(tái)同步的方式進(jìn)行的,這使本地系統(tǒng)性能受到的影響很小,傳輸距離長(zhǎng)(可達(dá)1000公里以上),對(duì)網(wǎng)絡(luò)帶寬要求小。但是,許多遠(yuǎn)程的從屬存儲(chǔ)子系統(tǒng)的寫(xiě)沒(méi)有得到確認(rèn),當(dāng)某種因素造成數(shù)據(jù)傳輸失敗,可能出現(xiàn)數(shù)據(jù)一致性問(wèn)題。為了解決這個(gè)問(wèn)題,目前大多采用延遲復(fù)制的技術(shù)(本地?cái)?shù)據(jù)復(fù)制均在后臺(tái)日志區(qū)進(jìn)行),即在確保本地?cái)?shù)據(jù)完好無(wú)損后進(jìn)行遠(yuǎn)程數(shù)據(jù)更新。 2.快照技術(shù) 遠(yuǎn)程鏡像技術(shù)往往同快照技術(shù)結(jié)合起來(lái)實(shí)現(xiàn)遠(yuǎn)程備份,即通過(guò)鏡像把數(shù)據(jù)備份到遠(yuǎn)程存儲(chǔ)系統(tǒng)中,再用快照技術(shù)把遠(yuǎn)程存儲(chǔ)系統(tǒng)中的信息備份到遠(yuǎn)程的磁帶庫(kù)、光盤庫(kù)中。 快照是通過(guò)軟件對(duì)要備份的磁盤子系統(tǒng)的數(shù)據(jù)快速掃描,建立一個(gè)要備份數(shù)據(jù)的快照邏輯單元號(hào)LUN和快照cache。在快速掃描時(shí),把備份過(guò)程中即將要修改的數(shù)據(jù)塊同時(shí)快速拷貝到快照cache中。快照LUN是一組指針,它指向快照cache和磁盤子系統(tǒng)中不變的數(shù)據(jù)塊(在備份過(guò)程中)。在正常業(yè)務(wù)進(jìn)行的同時(shí),利用快照LUN實(shí)現(xiàn)對(duì)原數(shù)據(jù)的一個(gè)完全的備份。它可使用戶在正常業(yè)務(wù)不受影響的情況下(主要指容災(zāi)備份系統(tǒng)),實(shí)時(shí)提取當(dāng)前在線業(yè)務(wù)數(shù)據(jù)。其“備份窗口”接近于零,可大大增加系統(tǒng)業(yè)務(wù)的連續(xù)性,為實(shí)現(xiàn)系統(tǒng)真正的7×24運(yùn)轉(zhuǎn)提供了保證。 快照是通過(guò)內(nèi)存作為緩沖區(qū)(快照cache),由快照軟件提供系統(tǒng)磁盤存儲(chǔ)的即時(shí)數(shù)據(jù)映像,它存在緩沖區(qū)調(diào)度的問(wèn)題。 3.互連技術(shù) 早期的主數(shù)據(jù)中心和備援?dāng)?shù)據(jù)中心之間的數(shù)據(jù)備份,主要是基于SAN的遠(yuǎn)程復(fù)制(鏡像),即通過(guò)光纖通道FC,把兩個(gè)SAN連接起來(lái),進(jìn)行遠(yuǎn)程鏡像(復(fù)制)。當(dāng)災(zāi)難發(fā)生時(shí),由備援?dāng)?shù)據(jù)中心替代主數(shù)據(jù)中心保證系統(tǒng)工作的連續(xù)性。這種遠(yuǎn)程容災(zāi)備份方式存在一些缺陷,如:實(shí)現(xiàn)成本高、設(shè)備的互操作性差、跨越的地理距離短(10公里)等,這些因素阻礙了它的進(jìn)一步推廣和應(yīng)用。 目前,出現(xiàn)了多種基于IP的SAN的遠(yuǎn)程數(shù)據(jù)容災(zāi)備份技術(shù)。它們是利用基于IP的SAN的互連協(xié)議,將主數(shù)據(jù)中心SAN中的信息通過(guò)現(xiàn)有的TCP/IP網(wǎng)絡(luò),遠(yuǎn)程復(fù)制到備援中心SAN中。當(dāng)備援中心存儲(chǔ)的數(shù)據(jù)量過(guò)大時(shí),可利用快照技術(shù)將其備份到磁帶庫(kù)或光盤庫(kù)中。這種基于IP的SAN的遠(yuǎn)程容災(zāi)備份,可以跨越LAN、MAN和WAN,成本低、可擴(kuò)展性好,具有廣闊的發(fā)展前景。基于IP的互連協(xié)議包括:FCIP、iFCP、Infiniband、iSCSI等。 衡量容災(zāi)備份的兩個(gè)技術(shù)指標(biāo) RPO(Recovery Point Objective):即數(shù)據(jù)恢復(fù)點(diǎn)目標(biāo),主要指的是業(yè)務(wù)系統(tǒng)所能容忍的數(shù)據(jù)丟失量。 RTO(Recovery Time Objective):即恢復(fù)時(shí)間目標(biāo),主要指的是所能容忍的業(yè)務(wù)停止服務(wù)的最長(zhǎng)時(shí)間,也就是從災(zāi)難發(fā)生到業(yè)務(wù)系統(tǒng)恢復(fù)服務(wù)功能所需要的最短時(shí)間周期。 RPO針對(duì)的是數(shù)據(jù)丟失,而RTO針對(duì)的是服務(wù)丟失,二者沒(méi)有必然的關(guān)聯(lián)性。RTO和RPO的確定必須在進(jìn)行風(fēng)險(xiǎn)分析和業(yè)務(wù)影響分析后根據(jù)不同的業(yè)務(wù)需求確定。對(duì)于不同企業(yè)的同一種業(yè)務(wù),RTO和RPO的需求也會(huì)有所不同。
移動(dòng)通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團(tuán)隊(duì)博客 | 免責(zé)聲明 | 關(guān)于詞典 | 幫助