盡管現(xiàn)在進入任何一個數(shù)據(jù)中心,你所看到的景象同十年前沒有多大的不同,但是由于超密集型服務(wù)器機架、分散和虛擬運算的趨勢、即時故障切換,以及IP電話和通過IP傳輸聲音信息的新需求的不斷涌現(xiàn),數(shù)據(jù)中心的各個部分正在發(fā)生改變。
數(shù)據(jù)中心的四大變化:
1.超高密度服務(wù)器機架引發(fā)對散熱的強烈需求;
2.向分布式和虛擬處理移植的趨勢使數(shù)據(jù)中心分散配置成為可能;
3.即時故障切換的需求要求數(shù)據(jù)中心具備雙倍冗余能力;
4.向IP電話和VoIP移植的趨勢對數(shù)據(jù)中心的通信體系和管理都帶來了變化。
一直以來,服務(wù)器和處理器廠商都把建造更小更密集的系統(tǒng)作為研發(fā)目標,這盡管令人興奮,但是如今由此帶來的諸多問題開始顯現(xiàn)。別的不說,單就散熱問題就足以讓數(shù)據(jù)中心的管理人員頭疼的了,因為正如美國密執(zhí)安州某醫(yī)院數(shù)據(jù)中心運營主任羅伯特所言:“并非人人都能建造一個可以滿足散熱需求的數(shù)據(jù)中心!币驗檫@不是一件容易的事情。所以,斯坦福大學(xué)的數(shù)據(jù)中心經(jīng)理Patrick Luma說,他很想看到服務(wù)器廠商“少把注意力放在縮小機器的尺寸上,多把注意力集中在減少機器內(nèi)的發(fā)熱量上!
數(shù)據(jù)中心需要不間斷散熱
關(guān)于散熱問題,數(shù)據(jù)中心設(shè)備的設(shè)計者們通常單憑一些簡單的經(jīng)驗來解決,例如,如果一個空間有上千平方英尺大,則需要數(shù)噸空調(diào)設(shè)備;或者他們依據(jù)設(shè)備銘牌上列明的最高電力使用量來布置散熱系統(tǒng)。事實上,這些簡單作法今天并不能湊效,它可能會導(dǎo)致在整體設(shè)備上消耗過多昂貴的制冷資源,甚至還可能導(dǎo)致服務(wù)器機架內(nèi)部的多處小空間的溫度極高。
加利福尼亞數(shù)據(jù)中心設(shè)計集團總裁Ron Hughes說: 去年,一般的數(shù)據(jù)中心每平方英尺面積消耗電量是40瓦,使用舊服務(wù)器機架的數(shù)據(jù)中心則每平方英尺面積耗電量是2千瓦。今年,他正設(shè)計一套能支持每平方英尺面積平均耗電120瓦,機架的耗電量為4千瓦到5千瓦的數(shù)據(jù)中心設(shè)備。
Hughes說: “如果您了解HP、Sun、IBM、Dell等公司最新的構(gòu)想,您就會發(fā)現(xiàn),這些制造商預(yù)計刀片式服務(wù)器機架的耗電量將達到15千瓦至25千瓦。服務(wù)器領(lǐng)域?qū)⒊〉目臻g、更高的處理能力和更大的耗電量發(fā)展,當然散熱的要求也會相應(yīng)提高。我曾經(jīng)發(fā)現(xiàn)有些公司預(yù)計單個機架的耗電量將高達30千瓦,也就是說數(shù)據(jù)中心里每平方英尺的能耗將達到500瓦。”
由此帶來的最大問題并不是散熱本身,而是如何以合理的價格實現(xiàn)散熱。Hughes說,如果每平方英尺的功耗為40瓦,那么建設(shè)數(shù)據(jù)中心的成本將是每平方英尺400美元,建設(shè)一個5萬平方英尺的數(shù)據(jù)中心就需要2千萬美元。但Hughes同時還指出,到2009年,根據(jù)預(yù)測每平方英尺的功耗將高達500瓦。到那時,冷卻空氣用量、不間斷電源(UPS)、發(fā)電機和相關(guān)設(shè)備的成本將會大幅度提高。他說,建設(shè)此類數(shù)據(jù)中心的單位成本將攀升至每平方英尺5千美元,而對于同樣一個數(shù)據(jù)中心,造價也將從2千萬美元竄升至2.5億美元。
當數(shù)據(jù)中心在緊急時刻切換至備用電源時,散熱的問題就會變得更加復(fù)雜。在發(fā)生斷電時,UPS單元會立即啟動,因此對計算機來說電源的供應(yīng)并沒有受到干擾或中斷。但是,在此類事件中,發(fā)電機要等到15秒至60秒后才能啟動散熱系統(tǒng)。這在過去根本算不上是什么問題,但在許多比較新的設(shè)備中,溫度攀升的速度非常快。 Uptime Institute 公司高級顧問Bob Sullivan 說: “如果數(shù)據(jù)中心內(nèi)每平方英尺的功耗是40瓦,那么在冷卻系統(tǒng)停止工作后的10分鐘內(nèi),溫度會上升25度。但如果數(shù)據(jù)中心每平方英尺的功耗是300瓦,溫度上升25度所需要的時間還不到一分鐘!
Sullivan說,解決問題的方法是使用不間斷散熱系統(tǒng),其工作原理也同不間斷電源系統(tǒng)類似。這就需要使用大量的風(fēng)扇,利用不間斷電源的供電向數(shù)據(jù)中心源源不斷地提供經(jīng)冷卻的空氣。
分散配置數(shù)據(jù)中心以防災(zāi)難
今天,許多公司只擁有一個大型數(shù)據(jù)中心,而有些公司則根據(jù)其用戶的所在地設(shè)置兩個或更多的數(shù)據(jù)中心。但隨著“暗”光纖價格的降低和新型虛擬軟件的普及,企業(yè)都能夠以更靈活的方式實現(xiàn)動態(tài)的處理負荷分散配置,并且對用戶來說是完全透明的。例如,F(xiàn)ederal National Mortgage Association公司就擁有兩個數(shù)據(jù)中心,其中一個多數(shù)情況下用作緊急備用站點。這家按揭金融公司負責(zé)IT系統(tǒng)的主管 Stan Lofton說,F(xiàn)annie Mae公司正在為他們公司建設(shè)另外一個數(shù)據(jù)中心,用于替代原來的緊急備用中心,使兩個數(shù)據(jù)中心最終都發(fā)展成為“協(xié)作生產(chǎn)環(huán)境”。 他說:“我們目前有許多應(yīng)用都可以實現(xiàn)雙站點生產(chǎn)性運營,因此如果其中一個站點發(fā)生故障,用戶仍然可以獲得連續(xù)無縫的服務(wù)。在將來,我們將讓越來越多的應(yīng)用以這種方式運行!
Business Technology Partners公司是一家總部設(shè)在紐約的企業(yè)。該公司總裁Joshua Aaron說,這種方法避免了單個故障點的出現(xiàn),并且使災(zāi)難恢復(fù)變得更快,更容易。他指出:“由于不必將所有的不動產(chǎn)集合在同一個地點,這樣在災(zāi)難恢復(fù)和重建過程中,您就擁有了更多的優(yōu)勢和主動權(quán)!边@種方法也使許多公司開始考慮在企業(yè)內(nèi)部實施災(zāi)難恢復(fù),而不使用其他公司提供的災(zāi)難恢復(fù)服務(wù)。Sullivan says說:“您會發(fā)現(xiàn),這類災(zāi)難恢復(fù)設(shè)備也可以用于開發(fā)、測試和協(xié)作生產(chǎn)環(huán)境中!
Fannie Mae公司的設(shè)施經(jīng)理Terry Rodgers說:協(xié)作生產(chǎn)型數(shù)據(jù)中心具備“連續(xù)可用性”功能。當主站點在發(fā)生火災(zāi)或其他災(zāi)難時,越來越多的用戶希望幾個小時、甚至幾分鐘內(nèi)啟用備用站點的系統(tǒng)。Rodgers指出,故障切換必須能夠立即實現(xiàn),而在這一過程中軟件和硬件的作用都是非常重要的。
雙倍冗余保持業(yè)務(wù)連續(xù)
要想實現(xiàn)連續(xù)的可用性,就必須按照Uptime Institute定義的要求建設(shè)第5級(Tier IV)的數(shù)據(jù)中心。第5級的要求明確規(guī)定應(yīng)使用兩套獨立的供電系統(tǒng),從雙份電纜到雙份計算機硬件,所有的設(shè)備都必須有兩套。Rodgers 說: Fannie Mae公司正在建設(shè)的新數(shù)據(jù)中心就完全符合第5級的規(guī)格,并且能夠提供真正的“實時備份”。
Visa美國公司擁有兩個面積在5萬平方英尺以上的數(shù)據(jù)中心,一個在美國東海岸,另外一個在西海岸。這兩個數(shù)據(jù)中心中每一個都可以立即成為另外一個數(shù)據(jù)中心的備份站點。兩個數(shù)據(jù)中心都被評為N+1級,也就是說擁有N個組件的每套系統(tǒng)都擁有至少一個熱備用組件。例如,如果一個數(shù)據(jù)中心正在使用的UPS模塊有6個,那么根據(jù)N+1原則,就應(yīng)該有第7個UPS模塊處于備用狀態(tài)下。
在一年內(nèi),Visa公司將移植到一套2(N+1)架構(gòu)下,即每套系統(tǒng)都有完全相同的備份系統(tǒng)。在上面的例子中,該數(shù)據(jù)中心應(yīng)當擁有兩套隨時可用的UPS系統(tǒng),每套系統(tǒng)都擁有獨立的電纜,并且每套本身也構(gòu)成了自己的N+1冗余體系。
Visa 公司負責(zé)運營的高級副總裁Richard Knight 說:“在十年前,N+1構(gòu)架只允許一個組件發(fā)生故障。現(xiàn)在,隨著技術(shù)的變化,再加上所有的設(shè)備都擁有了雙電源系統(tǒng),2(N+1)成為終極的設(shè)計已經(jīng)變成了很自然的事情。這可以說是典型的雙套系統(tǒng)與雙套組件之間的關(guān)系!
Visa公司的另一位副總裁Jerry Corbin說,除了提供最高級別的容錯能力,2(N+1)還能夠大幅提高靈活性,因為我們可以在系統(tǒng)維護時關(guān)閉整個系統(tǒng)。但是他也指出:“這種方案也會使管理工作的復(fù)雜性變得非常巨大!
適應(yīng)新的通信和管理方式
Aaron認為,聯(lián)網(wǎng)問題也在改變數(shù)據(jù)中心的設(shè)計,而存儲區(qū)域網(wǎng)絡(luò)(SAN)則提出了特殊的挑戰(zhàn)。他說:“盡管IP SCSI正在逐步打開自己的市場空間,但存儲區(qū)域網(wǎng)絡(luò)通常是與光纖通道交換機連接在一起的。今天的光纖通道交換機需要有自己的基礎(chǔ)設(shè)施,而且必須在數(shù)據(jù)中心設(shè)計階段就考慮到這些交換機的安置問題。它們要占用機架空間并且消耗大量的電力!
的確,通信方面的考慮也將越來越多地影響數(shù)據(jù)中心的設(shè)計。Aaron 預(yù)計:“隨著VoIP技術(shù)的普及,目前的數(shù)據(jù)中心必須能夠支持一種非常重要的關(guān)鍵任務(wù)應(yīng)用:語音。那么,如何為IP電話提供電源呢?如何處理911服務(wù)呢?如何提供語音郵件呢?如何支持統(tǒng)一信息呢?這些都是需要認真考慮的問題!
Aaron指出,如果因為停電而延誤了對911報警服務(wù)的支持,問題可謂相當嚴重。但這一點在傳統(tǒng)的數(shù)據(jù)中心設(shè)計中根本沒有考慮過,不過,現(xiàn)在就必須考慮了。而其中需要考慮的關(guān)鍵點就是語音網(wǎng)關(guān)、媒介網(wǎng)關(guān)和IP電話使用的備用電源設(shè)備。
IP網(wǎng)絡(luò)也是一把雙刃劍,既有優(yōu)勢,也有挑戰(zhàn)。許多數(shù)據(jù)中心里都開始安裝環(huán)境監(jiān)視傳感器,并將其連接到數(shù)據(jù)網(wǎng)絡(luò)中,這樣,設(shè)施經(jīng)理和IP經(jīng)理都可以通過這種統(tǒng)一的方式了解所有系統(tǒng)的健康狀況。
數(shù)據(jù)設(shè)備制造商也使用通用的數(shù)據(jù)交換標準和網(wǎng)絡(luò)協(xié)議來幫助設(shè)施和IT部門構(gòu)建統(tǒng)一、通用的管理體系。例如,總部設(shè)在Austin市的NetBotz公司就銷售一種具備IP地址的無線“監(jiān)視設(shè)備”,能夠安裝保安攝像機、麥克風(fēng),以及溫度、濕度及風(fēng)量傳感器。管理人員可以通過遠程方式讀取數(shù)據(jù)并通過電子郵件發(fā)送警報。
Aaron說:“這些東西的成本、尺寸和復(fù)雜性已經(jīng)下降。而且它們已經(jīng)和網(wǎng)絡(luò)集成在一起,因此可以通過廣域網(wǎng)在遠程地點對它們進行查看和控制!保ㄗg自《Computerworld》)
方法●散熱
如何為數(shù)據(jù)中心降溫
目前有許多已經(jīng)或即將推出的解決方案都能夠有效解決數(shù)據(jù)中心降溫散熱的問題。它們包括:
● 直接散熱。這種方法并不像今天的數(shù)據(jù)中心那樣使用分區(qū)的方法,利用一排排設(shè)備間的走廊降低整個數(shù)據(jù)中心的溫度。這種數(shù)據(jù)中心的設(shè)計利用定向輔助散熱,如連接在機架、機柜或單個部件外部或內(nèi)部的水冷或制冷散熱單元。
● 水冷處理器。這種方法的起源可以追溯到大型機時代。主要的計算機制造商都在研究這種技術(shù),但尚未推出真正的產(chǎn)品。Fannie Mae公司的設(shè)施經(jīng)理Terry Rodgers認為:“如果在三到五年前,我肯定會設(shè)計抬高的風(fēng)冷系統(tǒng),這在今天是非常普及的作法,但從今天的情況來看,我更愿意選擇冷水散熱設(shè)備。這樣幾乎可以一勞永逸地解決問題! 加利福尼亞數(shù)據(jù)中心設(shè)計集團(California Data Center Design Group)總裁Ron Hughes則認為:“這種解決方案對于大型數(shù)據(jù)中心肯定是有意義的!
● 分散發(fā)熱量較大的設(shè)備。一些公司沒有將自己的機架塞滿服務(wù)器,而是將它們分散放置,相隔的距離也比較遠。在某些情況下,這是一種成本非常低的解決方案,但如果數(shù)據(jù)中心內(nèi)空間緊張或不動產(chǎn)的價格非常昂貴,那么這種作法恐怕就會變得很不實用。
● 更具智能的容量規(guī)劃和散熱能力分配。美國加熱、制冷及空調(diào)工程師協(xié)會在今年公布了一份指導(dǎo)文件。利用這些指導(dǎo)原則,服務(wù)器制造商可以按照最小、典型和滿負荷三種級別的配置報告其設(shè)備的散熱和氣流要求。DLB Associates Consulting Engineers PC 的總裁Don Beaty指出,這些“熱量報告”可以幫助數(shù)據(jù)中心設(shè)計人員遺漏熱點和超過總體散熱容量等問題的出現(xiàn)。
案例●管理
Visa公司擴大對數(shù)據(jù)中心的監(jiān)視
Visa美國公司正在努力將數(shù)據(jù)中心的監(jiān)視水平提高到一個新的層次上,不僅擴展傳統(tǒng)的硬件和軟件組件監(jiān)視,而且還要增加對服務(wù)水平的監(jiān)視。該公司負責(zé)運營和網(wǎng)絡(luò)服務(wù)的副總裁Tony LaManna指出,在過去,如果數(shù)據(jù)中心內(nèi)一個電源分配單元(PDU)發(fā)生了故障,必然會對客戶服務(wù)造成非常明顯的不良影響。
目前Visa公司利用一個軟件網(wǎng)絡(luò)對所有的2萬1千個成員金融機構(gòu)和2千萬商家進行監(jiān)視。如果某一個加油站的讀卡器不能讀出客戶的信用卡,那么在Visa數(shù)據(jù)中心的工作人員就可以對整個事情進行跟蹤并找出問題的根源。該公司負責(zé)運營的高級副總裁Richard Knight 說:“組件級的測量是非常重要的,但究其根源,我們的目標是讓持卡人能夠順利使用自己的信用卡,并讓商戶能夠順利地出售自己的商品!
Visa的服務(wù)監(jiān)視系統(tǒng)是在以下組件的基礎(chǔ)上建立起來的:
● Netcool 它負責(zé)監(jiān)視和調(diào)查,由舊金山的Micromuse公司提供。這些工具能夠從整個IT基礎(chǔ)設(shè)施中采集實時數(shù)據(jù),并將其合并到單個管理控制臺上,同時向經(jīng)理人員和其他系統(tǒng)通報那些影響客戶服務(wù)的問題。
● NerveCenter 由馬薩諸塞州Westboro 市的OpenService公司提供。NerveCenter負責(zé)進行網(wǎng)絡(luò)監(jiān)視、集成網(wǎng)絡(luò)和安全事件,執(zhí)行問題根源分析并自動解決某些問題。
● Powerpack 由佛羅里達州Winter Park市的Interlink Software公司提供。該工具能夠進行事件監(jiān)視,同時也可從最終用戶的視角實施性能分析。
Visa很快還將進一步改進該監(jiān)視網(wǎng)絡(luò),將其集成到數(shù)據(jù)中心設(shè)施管理系統(tǒng)中。到那時,管理人員就可以很快找出許多問題的根源,像電源分配單元故障與客戶服務(wù)受到的沖擊之間的聯(lián)系也可以很快查明。LaManna說:“到那時,我們可以完整地了解端到端的所有情況和問題!
摘自《計算機世界報》 第46期 C6、C7