親歷寧夏銀行800公里異地容災(zāi)實戰(zhàn)演練

  作者:郭濤

  2010年4月24日下午,寧夏銀行8樓會議室里一片寂靜,一場災(zāi)難恢復(fù)實戰(zhàn)演練即將開始。會場上的氣氛略顯緊張,因為這畢竟是在相距800公里的兩個站點之間進(jìn)行的異地災(zāi)難恢復(fù)實戰(zhàn)演練。以前,這種演練在國內(nèi)銀行系統(tǒng)是比較少見的。來自國內(nèi)30多家城市商業(yè)銀行、農(nóng)村信用社的IT管理人員注視著演練小組的一舉一動。

  參與實戰(zhàn)演練的全部是寧夏銀行的人員,包括銀行的管理人員、業(yè)務(wù)人員和技術(shù)人員。這樣的演練能夠真正考驗寧夏銀行應(yīng)急管理組織架構(gòu)中各相關(guān)部門的協(xié)同工作能力,讓寧夏銀行的災(zāi)難恢復(fù)相關(guān)技術(shù)人員能夠熟悉災(zāi)難恢復(fù)的流程,同時也表明寧夏銀行CDP應(yīng)用級災(zāi)難恢復(fù)系統(tǒng)是一套簡單易行且高效的災(zāi)難恢復(fù)系統(tǒng)。

  不能本末倒置

  為了保證此次實戰(zhàn)演練的成功,寧夏銀行做了精心的準(zhǔn)備,并特意選擇在下午交易接近結(jié)束時進(jìn)行演練,避免對銀行的交易造成影響。但是計劃趕不上變化,因為種種原因,實戰(zhàn)演練的時間提前了,本來準(zhǔn)備下發(fā)的關(guān)于演練的內(nèi)部通告也沒有發(fā)出。因此,整個演練是在真實的銀行交易過程中進(jìn)行的,是一次名副其實的實戰(zhàn)演練。

  第一個演練場景是模擬數(shù)據(jù)庫系統(tǒng)癱瘓情況下的系統(tǒng)恢復(fù)。15∶48,演練正式開始。銀行柜面業(yè)務(wù)人員在處理一筆交易時,發(fā)現(xiàn)交易無法正常進(jìn)行,便及時向技術(shù)部門告警。15∶52,技術(shù)部門確認(rèn)系統(tǒng)發(fā)生故障,并提請進(jìn)行系統(tǒng)災(zāi)難恢復(fù)。 15∶53,銀行領(lǐng)導(dǎo)決定,啟動災(zāi)難恢復(fù)流程。15∶58,技術(shù)部門完成CDP數(shù)據(jù)提取,并加載到主機(jī)上。15∶59,系統(tǒng)恢復(fù)成功,主機(jī)啟動。 16∶00,應(yīng)用加載成功,業(yè)務(wù)可正常進(jìn)行。16∶02,柜面業(yè)務(wù)人員驗證交易成功,沒有數(shù)據(jù)丟失。RPO為零,RTO為14分鐘,完全滿足寧夏銀行災(zāi)難恢復(fù)系統(tǒng)的建設(shè)指標(biāo)(RPO近似為零,RTO為60分鐘)。

  保證業(yè)務(wù)連續(xù)性是降低銀行運營風(fēng)險、提升服務(wù)水平所必須的。在銀行實現(xiàn)數(shù)據(jù)和系統(tǒng)大集中的背景下,信息安全顯得尤為重要。災(zāi)難恢復(fù)和業(yè)務(wù)連續(xù)性計劃是銀行信息安全的最后一道屏障,對于風(fēng)險防范具有十分重要的意義。

  寧夏銀行信息技術(shù)部總經(jīng)理王春表示:“通常情況下,硬件故障占40%,由人為誤操作、應(yīng)用程序故障或系統(tǒng)缺陷引起的邏輯故障占50%,而火災(zāi)、地震等大災(zāi)難發(fā)生的概率只有1%~2%。只有對面臨的風(fēng)險有清晰的認(rèn)識,才能在建設(shè)災(zāi)難恢復(fù)系統(tǒng)時做到心中有數(shù)!

  一提到災(zāi)難恢復(fù),很多人首先想到的是建立異地的災(zāi)備中心。建設(shè)異地災(zāi)備中心,不僅投資巨大,而且只有在發(fā)生火災(zāi)、地震等大災(zāi)難時,異地災(zāi)備中心才能真正發(fā)揮作用。企業(yè)如果用90%的資金去防范1%~2%的風(fēng)險,其實是本末倒置。寧夏銀行從2005年開始在災(zāi)難恢復(fù)和業(yè)務(wù)連續(xù)性計劃方面進(jìn)行嘗試,平均每年的IT預(yù)算達(dá)到3000萬元。寧夏銀行十分清楚,經(jīng)常發(fā)生且對銀行業(yè)務(wù)安全影響較大的風(fēng)險是硬件設(shè)備故障和邏輯錯誤,而不是火災(zāi)、地震等大災(zāi)難。因此在災(zāi)難恢復(fù)系統(tǒng)建設(shè)方面,寧夏銀行沒有急于求成,建設(shè)一個異地的災(zāi)備中心,而是從防范最基本的硬件設(shè)備故障入手,按部就班地進(jìn)行災(zāi)難恢復(fù)體系的建設(shè)。

  2006年,寧夏銀行采用磁盤同步復(fù)制技術(shù),消除了磁盤陣列存在的單點故障,同時綜合運用快照、備份等數(shù)據(jù)保護(hù)技術(shù),保障了銀行存儲系統(tǒng)的安全。2009年,為了拓展業(yè)務(wù),寧夏銀行在西安建立了分行,跨區(qū)經(jīng)營促使寧夏銀行將建立異地災(zāi)備中心的計劃提上了議事日程。即使如此,寧夏銀行也沒有盲目行事,而是進(jìn)行了充分的市場調(diào)研和風(fēng)險評估,希望建設(shè)一個高性價比的異地災(zāi)備系統(tǒng)。

  建設(shè)一個異地災(zāi)備中心的投入非常大,包括基礎(chǔ)設(shè)施建設(shè)成本、傳輸線路租用成本、運維成本等。寧夏銀行因為在西安設(shè)立了分行,所以災(zāi)備中心的場所是現(xiàn)成的,這可以節(jié)省一大筆基礎(chǔ)設(shè)施建設(shè)費用。寧夏銀行在采用飛康CDP持續(xù)數(shù)據(jù)災(zāi)備技術(shù)的同時還采用了帶寬精簡技術(shù),4M帶寬就能滿足災(zāi)備復(fù)制的基本要求,從而減少了帶寬租用的成本?紤]到遠(yuǎn)程容災(zāi)的傳輸線路成本以及高昂的運維成本(可能達(dá)到千萬元級),寧夏銀行選擇了更實用、更經(jīng)濟(jì)的CDP技術(shù)。

  非CDP不可?

  寧夏銀行于2009年12月開始按照國家《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》(GB/T 20988)災(zāi)難恢復(fù)第五級標(biāo)準(zhǔn)的相關(guān)要求,啟動了異地災(zāi)備系統(tǒng)建設(shè),災(zāi)備中心設(shè)在西安分行。考慮到要建立本地和異地一體化、分層次的災(zāi)難恢復(fù)系統(tǒng),寧夏銀行采用了能夠覆蓋所有災(zāi)難的CDP技術(shù)。飛康CDP技術(shù)具有精準(zhǔn)任意時間點定位、分層次本地/異地雙重恢復(fù)體系、全部災(zāi)難的防御能力、設(shè)備故障的業(yè)務(wù)不停頓能力以及遠(yuǎn)程帶寬精簡技術(shù),因此受到了寧夏銀行的青睞。

  針對寧夏銀行的需求,飛康設(shè)計了一套災(zāi)難和故障防御并舉、用戶行使恢復(fù)地點選擇權(quán)、任意歷史點恢復(fù)、用戶自行管理的集備份與遠(yuǎn)程容災(zāi)于一體的綜合數(shù)據(jù)保護(hù)解決方案。在生產(chǎn)機(jī)房通過部署飛康CDP管理器網(wǎng)關(guān),對核心數(shù)據(jù)庫和應(yīng)用系統(tǒng)以及開發(fā)測試系統(tǒng)提供本地的持續(xù)數(shù)據(jù)保護(hù)。在應(yīng)用級災(zāi)備的異地機(jī)房,同樣部署飛康CDP設(shè)備,保證異地的連續(xù)數(shù)據(jù)傳輸。一旦發(fā)生生產(chǎn)系統(tǒng)故障,寧夏銀行既可以選擇在本地立即恢復(fù)運行(一般在10分鐘以內(nèi)),也可以選擇利用異地災(zāi)備中心的數(shù)據(jù)進(jìn)行應(yīng)用級恢復(fù)。在數(shù)據(jù)庫癱瘓時,只要啟用飛康的錄像精細(xì)化回放技術(shù),就可以在本地快速恢復(fù)系統(tǒng)。

  “按照《信息系統(tǒng)災(zāi)難恢復(fù)規(guī)范》的規(guī)定,最高的災(zāi)難恢復(fù)等級是6級,即RTO和RPO都為零。但實際情況是,國內(nèi)最高等級的災(zāi)備中心也只能達(dá)到5++級。寧夏銀行異地災(zāi)備系統(tǒng)的建設(shè)從實際需求出發(fā),并不刻意追求過高的RTO和RPO指標(biāo)。經(jīng)過實際測算,我們目前可以容忍半小時以內(nèi)的數(shù)據(jù)丟失量!蓖醮航榻B說,“當(dāng)初,我們之所以毫不猶豫地選擇CDP技術(shù),是因為CDP既可以實現(xiàn)硬件設(shè)備的故障恢復(fù),也可以實現(xiàn)邏輯故障的恢復(fù),并且能夠?qū)崿F(xiàn)生產(chǎn)中心與災(zāi)備中心的雙向快速切換,在成本上也能滿足我們的需要!

  挑戰(zhàn)800公里異地容災(zāi)

  在銀行系統(tǒng)內(nèi)部,同城災(zāi)難恢復(fù)的實戰(zhàn)演練屢見不鮮。但是像寧夏銀行這樣進(jìn)行800公里異地災(zāi)難切換演練的并不多 。寧夏銀行模擬的第二個場景是火災(zāi)發(fā)生時的異地災(zāi)難恢復(fù)。

  16∶20,柜面業(yè)務(wù)人員發(fā)現(xiàn)交易故障,提請技術(shù)人員查看交易系統(tǒng)。 16∶22,技術(shù)部門確認(rèn)由于機(jī)房發(fā)生火災(zāi),系統(tǒng)不能正常運行,提請進(jìn)行異地切換。16∶26,領(lǐng)導(dǎo)發(fā)出異地切換指令,技術(shù)人員檢查傳輸線路是否暢通,然后開始異地切換。16∶31,CDP系統(tǒng)在異地提取數(shù)據(jù)成功。16∶32,西安的災(zāi)備中心主機(jī)接管銀川主生產(chǎn)中心的業(yè)務(wù)。16∶36,經(jīng)過驗證,切換成功,數(shù)據(jù)無丟失。演練結(jié)束,異地切換RTO為15分鐘,RPO小于10分鐘,完全滿足寧夏銀行異地災(zāi)備系統(tǒng)的建設(shè)目標(biāo)。

  在短短1個小時的時間里,寧夏銀行順利地完成了數(shù)據(jù)庫系統(tǒng)癱瘓和火災(zāi)情況下的災(zāi)備演練。此次演練驗證了寧夏銀行核心系統(tǒng)災(zāi)難備份技術(shù)方案的有效性以及災(zāi)難恢復(fù)策略的合理性和可操作性,并讓寧夏銀行的相關(guān)人員積累了災(zāi)難處理經(jīng)驗,進(jìn)一步優(yōu)化了其應(yīng)急策略及預(yù)案。

  異地災(zāi)備系統(tǒng)的建設(shè)并不是終點。業(yè)務(wù)連續(xù)性的問題必須常抓不懈。王春表示:“現(xiàn)階段,寧夏銀行實現(xiàn)了核心業(yè)務(wù)和柜面業(yè)務(wù)的應(yīng)用級容災(zāi)。未來,寧夏銀行計劃將POS機(jī)、ATM機(jī)、電話和網(wǎng)上銀行等業(yè)務(wù)全部納入到應(yīng)用級容災(zāi)的保護(hù)范圍之內(nèi)。”


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息