面對極端情況,如果云上的應(yīng)用沒有合理規(guī)劃災(zāi)備,一定會造成業(yè)務(wù)中斷甚至數(shù)據(jù)丟失。多云戰(zhàn)略也是未來的重要方向。
作者: 呂倩 來莎莎
7月13日深夜,微博、朋友圈等社交平臺紛紛在熱議一個話題——B站怎么崩了?“B站崩了”話題一度在微博熱搜第一名上,并呈現(xiàn)“爆了”的狀態(tài)。
與此同時,很多網(wǎng)友反映,A站、豆瓣、晉江……都崩了。
互聯(lián)網(wǎng)企業(yè)難免宕機。尷尬的是,B站的修復進展緩慢,讓網(wǎng)友十分著急上火。子夜時分,“后浪”們的吐槽在社交媒體上發(fā)酵。
7月14日凌晨0時20分,A站發(fā)微博稱,“在修復了”。4分鐘后,即0時24分稱“已修復,歡迎來玩”。
在宕機約三個小時后,7月14日凌晨2時20分,B站(09626.HK)通過其官方微博就“部分服務(wù)器機房發(fā)生故障造成無法訪問”致歉,稱:“昨晚,B站的部分服務(wù)器機房發(fā)生故障,造成無法訪問。技術(shù)團隊隨即進行了問題排查和修復,現(xiàn)在服務(wù)已經(jīng)陸續(xù)恢復正常。耽誤大家看視頻了,對不起!
但至于服務(wù)器機房發(fā)生故障的具體原因,B站并未進一步詳細說明。盡管遭遇突發(fā)事件,B站港股股價表現(xiàn)尚可,14日微跌收于863.5港元。
具體宕機原因不明
“B站崩了”引發(fā)熱議后,其背后原因也引發(fā)多方猜測。當晚,上海消防第一時間回應(yīng)稱,“經(jīng)了解,位于上海市政立路485號國正中心內(nèi)的嗶哩嗶哩彈幕網(wǎng)B站(總部)未出現(xiàn)火情,未接到相關(guān)報警!
此前,B站技術(shù)總監(jiān)毛劍在公開分享中表示,在應(yīng)對連鎖故障時,要做到——盡可能避免過載;通過一些手段去做限流,以及在無法正常服務(wù)時,通過有損服務(wù)犧牲掉一些非核心服務(wù)去保證關(guān)鍵服務(wù)做到優(yōu)雅降級;重試策略上,在微服務(wù)內(nèi)盡可能做退避,盡可能考慮到重試放大的流量倍數(shù)對下游的沖擊;考慮在移動端用戶無法使用某個功能的情況下,通常頻繁刷新頁面產(chǎn)生流量沖擊,在移動端進行配合來做流控等方式。
但是在現(xiàn)實案例里,B站對突發(fā)事件的應(yīng)對顯然不夠迅速,有網(wǎng)友在分享帖子下評論稱“三個多小時才陸續(xù)恢復,這次絕對是一級事故”。
更多猜測聚焦在技術(shù)層面。多位接受第一財經(jīng)記者采訪的技術(shù)人員表示,B站采用混合云模式,內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)也是采用的騰訊云而非自建,因此目前從B站自身角度來考慮的話,更大可能是物理層面的問題,如網(wǎng)絡(luò)問題、數(shù)據(jù)中心光纖被挖斷、光纜被損害等。
騰訊云在官網(wǎng)客戶案例中介紹稱,B站采用騰訊云自研GSLB調(diào)度體系,結(jié)合全網(wǎng)實時監(jiān)控數(shù)據(jù),將用戶請求精準調(diào)度至最優(yōu)接入節(jié)點,最大程度降低用戶訪問時延和減少視頻卡頓,最終用戶用相同的帶寬可以流暢地觀看更高清的直播視頻,提升用戶體驗,建立平臺品牌形象。
實際上除了B站,此前諸多網(wǎng)站均發(fā)生過網(wǎng)絡(luò)事故。
2019年6月1日,亞馬遜旗下云服務(wù)商AWS中國區(qū)的許多互聯(lián)網(wǎng)公司發(fā)生宕機,受影響的包括亞馬遜中國官網(wǎng)、VIPKID、流利說、三星應(yīng)用商店等。后根據(jù)AWS的官方調(diào)查,AWS北京區(qū)域一處道路施工中有幾處光纜被切斷,導致可用區(qū)無法鏈接網(wǎng)絡(luò)。
行業(yè)人士認為,AWS因光纜被切斷便導致近12小時大面積服務(wù)癱瘓,是沒有做好網(wǎng)絡(luò)冗余設(shè)計,即為確保業(yè)務(wù)正常運轉(zhuǎn),除配置主線路外,同時做好第二種、第三種線路的部署。
2020年,AWS宕機又來。去年12月25日,AWS出現(xiàn)大范圍宕機,影響軟件企業(yè)Adobe、流媒體終端商Roku等服務(wù)。AWS稱,由于處理大量串流數(shù)據(jù)的Kinesis服務(wù)遭遇問題,導致好幾個網(wǎng)站錯誤率提高,并影響更新網(wǎng)站頁面的能力,已著手緊急修復。
2020年2月,微盟(02013.HK)收到系統(tǒng)監(jiān)控警報,經(jīng)排查后獲悉是微盟研發(fā)中心運維部核心運維人員賀某通過個人VPN登入公司內(nèi)網(wǎng)跳板機,對微盟線上生產(chǎn)環(huán)境進行了惡意的破壞。隨后,微盟諸多客戶的小程序電商商城均處于宕機狀態(tài),當時恰逢線上購物高峰期,宕機與數(shù)據(jù)丟失對微盟及其合作商家產(chǎn)生了極為負面的影響。
警醒容災(zāi)準備必要性
不論是AWS還是B站、微盟,其宕機事故所帶來的負面影響均需引發(fā)警惕。
另外,目前企業(yè)數(shù)字化轉(zhuǎn)型漸成大趨勢,5G、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、云計算、人工智能等新技術(shù)在各行各業(yè)中的應(yīng)用越來越多,所產(chǎn)生的海量數(shù)據(jù)正呈指數(shù)級增長。一旦發(fā)生數(shù)據(jù)丟失與網(wǎng)站崩潰,對業(yè)務(wù)極有可能產(chǎn)生致命性危機。
對于每家公司的運維團隊來說,降低容災(zāi)TCO、簡化容災(zāi)方案、業(yè)務(wù)快速恢復,都是極大挑戰(zhàn)。
萬博智云首席技術(shù)官(CTO)孫琦對第一財經(jīng)記者表示,雖然互聯(lián)網(wǎng)應(yīng)用架構(gòu)已經(jīng)從應(yīng)用層實現(xiàn)了高可靠和冗余的特性,但是面對物理層面或應(yīng)用邏輯的異常時,也無法全身而退。近幾年,云上構(gòu)建的應(yīng)用架構(gòu)的最佳實踐已經(jīng)非常完善,多可用區(qū)、彈性可擴展的方式為應(yīng)用構(gòu)建提供了便捷。
除了阿里云、騰訊云,主流云服務(wù)廠商均提供各種災(zāi)備方案。中國電信天翼云的方案為“2+31+X”資源部署,以內(nèi)蒙古、貴州兩大數(shù)據(jù)中心為核心,定位為冷數(shù)據(jù)存儲、海量密集計算、遠程災(zāi)備基地;在全國31個省份進行一省一池的核心部署,定位為溫數(shù)據(jù)存儲、屬地集中計算、專屬云等業(yè)務(wù);X指下沉到地市甚至區(qū)縣的邊緣節(jié)點,定位為熱數(shù)據(jù)高速緩存,邊緣計算等業(yè)務(wù),承載屬地化要求極高的業(yè)務(wù)。
UCloud優(yōu)刻得的容災(zāi)解決方案顯示,在國內(nèi),該公司以北京、上海、廣州為中心節(jié)點,中心之間的網(wǎng)絡(luò)實現(xiàn)雙環(huán)、異路、全互聯(lián),每個中心下會分布多個可用區(qū)、可用區(qū)下又有多個數(shù)據(jù)中心,可以實現(xiàn)同城多活,異地容災(zāi)。
UCloud創(chuàng)始人兼CEO季昕華曾在接受記者采訪時表示:“云計算公司有四大謊言,分別是云計算先服務(wù)于內(nèi)部客戶,再服務(wù)于外部客戶;云計算能保證100%的安全;云計算消耗大量資金;云計算是不盈利的!
季昕華稱:“云計算雖然比本地研發(fā)更安全,但不可能是100%。就算微軟、亞馬遜、谷歌、阿里、騰訊一樣都會出問題。所以用戶更愿意使用多家云來服務(wù),多云戰(zhàn)略是未來的重要方向!
在具體容災(zāi)落地過程中,騰訊云技術(shù)運營服務(wù)工程師康開元在騰訊大講堂上表示,做容災(zāi)首先要梳理當前系統(tǒng)“災(zāi)”主要有哪些痛點,并對其優(yōu)先級排序。如單點隱患、難擴展性、運維成本高等現(xiàn)狀。而異地容災(zāi)的核心特征在于——范圍上地域粒度的容災(zāi);流量分布上單地域承載100%業(yè)務(wù)流量;數(shù)據(jù)存儲方面在數(shù)據(jù)庫及存儲均在異地做冷備,數(shù)據(jù)單向同步;常見使用場景主要在數(shù)據(jù)層安全級別容災(zāi),業(yè)務(wù)層較少異地部署。
孫琦告訴第一財經(jīng),面對極端情況,如果云上的應(yīng)用沒有合理規(guī)劃災(zāi)備,也一定會造成業(yè)務(wù)中斷,甚至數(shù)據(jù)丟失,造成更大的損失。所以,云上的應(yīng)用架構(gòu)除了利用云原生的服務(wù)能力為應(yīng)用創(chuàng)造更快的迭代速度,還要考慮云原生服務(wù)在單元多區(qū)域,甚至多云多區(qū)域之間的災(zāi)備,才能實現(xiàn)最高級別的業(yè)務(wù)連續(xù)性。