
云計算服務(wù)在這個時代被吹捧成為IT圣者,所有的服務(wù)都可以被“云”化。隨著云技術(shù)逐漸成熟,云提供商也日益成熟,在大多數(shù)情況下,云的整體正常運行時間和穩(wěn)定性也在提高。
雖然云故障不像過去幾年那么特別普遍了,但它給企業(yè)客戶帶來的傷害卻比以前更大了。每次故障,不管如何迅速補救,都會對技術(shù)信譽造成一定影響,阻礙客戶更廣泛的采用。
小編在這里用近年來發(fā)生的一些數(shù)據(jù)中心故障事件總結(jié)一下幾大故障類型,也許能讓你看到,即便是計算機也會在所難免地出錯,再保險的措施似乎也只能把安全事件控制在一個小概率范圍內(nèi)。
斷網(wǎng)類型一:系統(tǒng)故障
典型事件1:亞馬遜AWS平安夜斷網(wǎng)
故障原因:彈性負載均衡服務(wù)故障

2011年8月6日,在北愛爾蘭都柏林出現(xiàn)的閃電引起亞馬遜和微軟在歐洲的云計算網(wǎng)絡(luò)因為數(shù)據(jù)中心停電而出現(xiàn)大規(guī)模宕機。閃電擊中都柏林數(shù)據(jù)中心附近的變壓器,導(dǎo)致其爆炸。爆炸引發(fā)火災(zāi),使所有公用服務(wù)機構(gòu)的工作暫時陷入中斷,導(dǎo)致整個數(shù)據(jù)中心出現(xiàn)宕機。
典型事件2:超級颶風(fēng)“桑迪”襲擊數(shù)據(jù)中心
故障原因:風(fēng)暴和洪水導(dǎo)致數(shù)據(jù)中心停止運行
2012年10月29日,超級颶風(fēng)“桑迪”襲擊了紐約和新澤西州的數(shù)據(jù)中心,這次自然災(zāi)害所帶來的惡劣影響包括為曼哈頓下城地區(qū)的洪水和一些設(shè)施的停機,周圍地區(qū)數(shù)據(jù)中心發(fā)電機運行失常。颶風(fēng)桑迪所帶來的影響超出了一般單一的中斷事故,為受災(zāi)地區(qū)數(shù)據(jù)中心產(chǎn)業(yè)帶來了規(guī)?涨暗臑(zāi)難。事實上,柴油已然成為了數(shù)據(jù)中心恢復(fù)工作的生命線,作為備用電源系統(tǒng)接管了整個地區(qū)的負荷,促使特別措施,保持發(fā)電機的燃料。隨著眼前的工作重點逐步轉(zhuǎn)移到災(zāi)后重建,我們有必要長期就數(shù)據(jù)中心的選址、工程和災(zāi)難恢復(fù)進行探討,這一話題可能將持續(xù)幾個月,甚至幾年。
斷網(wǎng)類型三:人為因素
典型事件1:Hosting.com服務(wù)中斷事故
故障原因:服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉

2012年7月28日Hosting.com停運事件。人為錯誤通常被認為是數(shù)據(jù)中心停機的主導(dǎo)因素之一。Hosting.com中斷事件造成 1100名客戶服務(wù)中斷就是一個例子。停機事故的發(fā)生是由于該公司位于特拉華州紐瓦克的數(shù)據(jù)中心正進行UPS系統(tǒng)預(yù)防性維護,“服務(wù)供應(yīng)商執(zhí)行斷路器操作順序不正確造成的UPS關(guān)閉是造成數(shù)據(jù)中心套房內(nèi)的設(shè)施損失的關(guān)鍵因素之一。
典型事件2:微軟爆發(fā)BPOS服務(wù)中斷事件
故障原因:微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的
2010年9月,微軟在美國西部幾周時間內(nèi)出現(xiàn)至少三次托管服務(wù)中斷事件向用戶致歉。這是微軟首次爆出重大的云計算事件。
事故當時,用戶訪問BPOS服務(wù)的時候,如果使用微軟北美設(shè)施訪問服務(wù)的客戶可能遇到了問題,這個故障持續(xù)了兩個小時。微軟當時聲稱:“這次數(shù)據(jù)突破事件是由于微軟在美國、歐洲和亞洲的數(shù)據(jù)中心的一個沒有確定的設(shè)置錯誤造成的。”
斷網(wǎng)類型四:系統(tǒng)Bug
典型事件1:Gmail電子郵箱爆發(fā)全球性故障
事故原因:數(shù)據(jù)中心例行性維護時,新程序代碼的副作用

2009年2月24日,谷歌的Gmail電子郵箱爆發(fā)全球性故障,服務(wù)中斷時間長達4小時。谷歌解釋事故的原因:在位于歐洲的數(shù)據(jù)中心例行性維護之時,有些新的程序代碼有些副作用,導(dǎo)致歐洲另一個資料中心過載,于是連鎖效應(yīng)就擴及到其它數(shù)據(jù)中心接口,最終釀成全球性的斷線,導(dǎo)致其他數(shù)據(jù)中心也無法正常工作。
典型事件2:“5.19宕機事件”
事故原因:客戶端軟件Bug,上網(wǎng)終端頻繁發(fā)起域名解析請求,引發(fā)DNS擁塞
2009年5月19日的21:50,江蘇、安徽、廣西、海南、甘肅、浙江等六省用戶申告訪問網(wǎng)站速度變慢或無法訪問。經(jīng)過工信部相關(guān)單位調(diào)查通報稱,此次全國六省網(wǎng)絡(luò)中斷事故,原因是國內(nèi)某公司推出的客戶端軟件存在缺陷,在該公司域名授權(quán)服務(wù)器工作異常的情況下,導(dǎo)致安裝該軟件的上網(wǎng)終端頻繁發(fā)起域名解析請求,引發(fā)DNS擁塞,造成大量用戶訪問網(wǎng)站慢或網(wǎng)頁打不開。

目前來看,解決的辦法大致可以從兩個角度出發(fā),對于企業(yè)級客戶來說,務(wù)必在采用云服務(wù)的同時定期備份云端的數(shù)據(jù),擁有第二套解決方案,以備不時之需。
而對于我們(fs.com)提供商來說,既然各種宕機事件是人為不可控制因素,我們就必須為我們的客戶思考種種對策,將用戶的損失降到最低,對故障事件的響應(yīng)效率提升到極致。
更多有趣的內(nèi)容和扎實的干貨,歡迎來找我,坐標在圖片上哦~