面對(duì)極端情況,如果云上的應(yīng)用沒有合理規(guī)劃災(zāi)備,一定會(huì)造成業(yè)務(wù)中斷甚至數(shù)據(jù)丟失。多云戰(zhàn)略也是未來的重要方向。
作者: 呂倩 來莎莎
7月13日深夜,微博、朋友圈等社交平臺(tái)紛紛在熱議一個(gè)話題——B站怎么崩了?“B站崩了”話題一度在微博熱搜第一名上,并呈現(xiàn)“爆了”的狀態(tài)。
與此同時(shí),很多網(wǎng)友反映,A站、豆瓣、晉江……都崩了。
互聯(lián)網(wǎng)企業(yè)難免宕機(jī)。尷尬的是,B站的修復(fù)進(jìn)展緩慢,讓網(wǎng)友十分著急上火。子夜時(shí)分,“后浪”們的吐槽在社交媒體上發(fā)酵。
7月14日凌晨0時(shí)20分,A站發(fā)微博稱,“在修復(fù)了”。4分鐘后,即0時(shí)24分稱“已修復(fù),歡迎來玩”。
在宕機(jī)約三個(gè)小時(shí)后,7月14日凌晨2時(shí)20分,B站(09626.HK)通過其官方微博就“部分服務(wù)器機(jī)房發(fā)生故障造成無法訪問”致歉,稱:“昨晚,B站的部分服務(wù)器機(jī)房發(fā)生故障,造成無法訪問。技術(shù)團(tuán)隊(duì)隨即進(jìn)行了問題排查和修復(fù),現(xiàn)在服務(wù)已經(jīng)陸續(xù)恢復(fù)正常。耽誤大家看視頻了,對(duì)不起!
但至于服務(wù)器機(jī)房發(fā)生故障的具體原因,B站并未進(jìn)一步詳細(xì)說明。盡管遭遇突發(fā)事件,B站港股股價(jià)表現(xiàn)尚可,14日微跌收于863.5港元。
具體宕機(jī)原因不明
“B站崩了”引發(fā)熱議后,其背后原因也引發(fā)多方猜測(cè)。當(dāng)晚,上海消防第一時(shí)間回應(yīng)稱,“經(jīng)了解,位于上海市政立路485號(hào)國正中心內(nèi)的嗶哩嗶哩彈幕網(wǎng)B站(總部)未出現(xiàn)火情,未接到相關(guān)報(bào)警。”
此前,B站技術(shù)總監(jiān)毛劍在公開分享中表示,在應(yīng)對(duì)連鎖故障時(shí),要做到——盡可能避免過載;通過一些手段去做限流,以及在無法正常服務(wù)時(shí),通過有損服務(wù)犧牲掉一些非核心服務(wù)去保證關(guān)鍵服務(wù)做到優(yōu)雅降級(jí);重試策略上,在微服務(wù)內(nèi)盡可能做退避,盡可能考慮到重試放大的流量倍數(shù)對(duì)下游的沖擊;考慮在移動(dòng)端用戶無法使用某個(gè)功能的情況下,通常頻繁刷新頁面產(chǎn)生流量沖擊,在移動(dòng)端進(jìn)行配合來做流控等方式。
但是在現(xiàn)實(shí)案例里,B站對(duì)突發(fā)事件的應(yīng)對(duì)顯然不夠迅速,有網(wǎng)友在分享帖子下評(píng)論稱“三個(gè)多小時(shí)才陸續(xù)恢復(fù),這次絕對(duì)是一級(jí)事故”。
更多猜測(cè)聚焦在技術(shù)層面。多位接受第一財(cái)經(jīng)記者采訪的技術(shù)人員表示,B站采用混合云模式,內(nèi)容分發(fā)網(wǎng)絡(luò)(CDN)也是采用的騰訊云而非自建,因此目前從B站自身角度來考慮的話,更大可能是物理層面的問題,如網(wǎng)絡(luò)問題、數(shù)據(jù)中心光纖被挖斷、光纜被損害等。
騰訊云在官網(wǎng)客戶案例中介紹稱,B站采用騰訊云自研GSLB調(diào)度體系,結(jié)合全網(wǎng)實(shí)時(shí)監(jiān)控?cái)?shù)據(jù),將用戶請(qǐng)求精準(zhǔn)調(diào)度至最優(yōu)接入節(jié)點(diǎn),最大程度降低用戶訪問時(shí)延和減少視頻卡頓,最終用戶用相同的帶寬可以流暢地觀看更高清的直播視頻,提升用戶體驗(yàn),建立平臺(tái)品牌形象。
實(shí)際上除了B站,此前諸多網(wǎng)站均發(fā)生過網(wǎng)絡(luò)事故。
2019年6月1日,亞馬遜旗下云服務(wù)商AWS中國區(qū)的許多互聯(lián)網(wǎng)公司發(fā)生宕機(jī),受影響的包括亞馬遜中國官網(wǎng)、VIPKID、流利說、三星應(yīng)用商店等。后根據(jù)AWS的官方調(diào)查,AWS北京區(qū)域一處道路施工中有幾處光纜被切斷,導(dǎo)致可用區(qū)無法鏈接網(wǎng)絡(luò)。
行業(yè)人士認(rèn)為,AWS因光纜被切斷便導(dǎo)致近12小時(shí)大面積服務(wù)癱瘓,是沒有做好網(wǎng)絡(luò)冗余設(shè)計(jì),即為確保業(yè)務(wù)正常運(yùn)轉(zhuǎn),除配置主線路外,同時(shí)做好第二種、第三種線路的部署。
2020年,AWS宕機(jī)又來。去年12月25日,AWS出現(xiàn)大范圍宕機(jī),影響軟件企業(yè)Adobe、流媒體終端商Roku等服務(wù)。AWS稱,由于處理大量串流數(shù)據(jù)的Kinesis服務(wù)遭遇問題,導(dǎo)致好幾個(gè)網(wǎng)站錯(cuò)誤率提高,并影響更新網(wǎng)站頁面的能力,已著手緊急修復(fù)。
2020年2月,微盟(02013.HK)收到系統(tǒng)監(jiān)控警報(bào),經(jīng)排查后獲悉是微盟研發(fā)中心運(yùn)維部核心運(yùn)維人員賀某通過個(gè)人VPN登入公司內(nèi)網(wǎng)跳板機(jī),對(duì)微盟線上生產(chǎn)環(huán)境進(jìn)行了惡意的破壞。隨后,微盟諸多客戶的小程序電商商城均處于宕機(jī)狀態(tài),當(dāng)時(shí)恰逢線上購物高峰期,宕機(jī)與數(shù)據(jù)丟失對(duì)微盟及其合作商家產(chǎn)生了極為負(fù)面的影響。
警醒容災(zāi)準(zhǔn)備必要性
不論是AWS還是B站、微盟,其宕機(jī)事故所帶來的負(fù)面影響均需引發(fā)警惕。
另外,目前企業(yè)數(shù)字化轉(zhuǎn)型漸成大趨勢(shì),5G、物聯(lián)網(wǎng)、工業(yè)互聯(lián)網(wǎng)、云計(jì)算、人工智能等新技術(shù)在各行各業(yè)中的應(yīng)用越來越多,所產(chǎn)生的海量數(shù)據(jù)正呈指數(shù)級(jí)增長(zhǎng)。一旦發(fā)生數(shù)據(jù)丟失與網(wǎng)站崩潰,對(duì)業(yè)務(wù)極有可能產(chǎn)生致命性危機(jī)。
對(duì)于每家公司的運(yùn)維團(tuán)隊(duì)來說,降低容災(zāi)TCO、簡(jiǎn)化容災(zāi)方案、業(yè)務(wù)快速恢復(fù),都是極大挑戰(zhàn)。
萬博智云首席技術(shù)官(CTO)孫琦對(duì)第一財(cái)經(jīng)記者表示,雖然互聯(lián)網(wǎng)應(yīng)用架構(gòu)已經(jīng)從應(yīng)用層實(shí)現(xiàn)了高可靠和冗余的特性,但是面對(duì)物理層面或應(yīng)用邏輯的異常時(shí),也無法全身而退。近幾年,云上構(gòu)建的應(yīng)用架構(gòu)的最佳實(shí)踐已經(jīng)非常完善,多可用區(qū)、彈性可擴(kuò)展的方式為應(yīng)用構(gòu)建提供了便捷。
除了阿里云、騰訊云,主流云服務(wù)廠商均提供各種災(zāi)備方案。中國電信天翼云的方案為“2+31+X”資源部署,以內(nèi)蒙古、貴州兩大數(shù)據(jù)中心為核心,定位為冷數(shù)據(jù)存儲(chǔ)、海量密集計(jì)算、遠(yuǎn)程災(zāi)備基地;在全國31個(gè)省份進(jìn)行一省一池的核心部署,定位為溫?cái)?shù)據(jù)存儲(chǔ)、屬地集中計(jì)算、專屬云等業(yè)務(wù);X指下沉到地市甚至區(qū)縣的邊緣節(jié)點(diǎn),定位為熱數(shù)據(jù)高速緩存,邊緣計(jì)算等業(yè)務(wù),承載屬地化要求極高的業(yè)務(wù)。
UCloud優(yōu)刻得的容災(zāi)解決方案顯示,在國內(nèi),該公司以北京、上海、廣州為中心節(jié)點(diǎn),中心之間的網(wǎng)絡(luò)實(shí)現(xiàn)雙環(huán)、異路、全互聯(lián),每個(gè)中心下會(huì)分布多個(gè)可用區(qū)、可用區(qū)下又有多個(gè)數(shù)據(jù)中心,可以實(shí)現(xiàn)同城多活,異地容災(zāi)。
UCloud創(chuàng)始人兼CEO季昕華曾在接受記者采訪時(shí)表示:“云計(jì)算公司有四大謊言,分別是云計(jì)算先服務(wù)于內(nèi)部客戶,再服務(wù)于外部客戶;云計(jì)算能保證100%的安全;云計(jì)算消耗大量資金;云計(jì)算是不盈利的!
季昕華稱:“云計(jì)算雖然比本地研發(fā)更安全,但不可能是100%。就算微軟、亞馬遜、谷歌、阿里、騰訊一樣都會(huì)出問題。所以用戶更愿意使用多家云來服務(wù),多云戰(zhàn)略是未來的重要方向!
在具體容災(zāi)落地過程中,騰訊云技術(shù)運(yùn)營服務(wù)工程師康開元在騰訊大講堂上表示,做容災(zāi)首先要梳理當(dāng)前系統(tǒng)“災(zāi)”主要有哪些痛點(diǎn),并對(duì)其優(yōu)先級(jí)排序。如單點(diǎn)隱患、難擴(kuò)展性、運(yùn)維成本高等現(xiàn)狀。而異地容災(zāi)的核心特征在于——范圍上地域粒度的容災(zāi);流量分布上單地域承載100%業(yè)務(wù)流量;數(shù)據(jù)存儲(chǔ)方面在數(shù)據(jù)庫及存儲(chǔ)均在異地做冷備,數(shù)據(jù)單向同步;常見使用場(chǎng)景主要在數(shù)據(jù)層安全級(jí)別容災(zāi),業(yè)務(wù)層較少異地部署。
孫琦告訴第一財(cái)經(jīng),面對(duì)極端情況,如果云上的應(yīng)用沒有合理規(guī)劃災(zāi)備,也一定會(huì)造成業(yè)務(wù)中斷,甚至數(shù)據(jù)丟失,造成更大的損失。所以,云上的應(yīng)用架構(gòu)除了利用云原生的服務(wù)能力為應(yīng)用創(chuàng)造更快的迭代速度,還要考慮云原生服務(wù)在單元多區(qū)域,甚至多云多區(qū)域之間的災(zāi)備,才能實(shí)現(xiàn)最高級(jí)別的業(yè)務(wù)連續(xù)性。