數(shù)據(jù)集中、SAN、云計算、10/40/100G運用正引領我們整整的高帶寬時代,數(shù)據(jù)中心的高速物理鏈路也遭遇自綜合布線系統(tǒng)誕生以來空前的質(zhì)量要求。即便是有著豐富經(jīng)驗的大型集成商、安裝商和供應商,習慣了以往布線方式和檢測方式的他們也正開始經(jīng)歷一番“磨難”。特別是高速、高密度光纖鏈路的使用帶來了一些設計、安裝、驗收、維護等方面的深刻變化。本文探討如何打造高可靠性的數(shù)據(jù)中心,并著重從測試的角度提供實現(xiàn)靠可靠性的保障方法,使得因布線問題造成的系統(tǒng)資源浪費、低效運行、停運等造成的損失減到最小。
高可靠性的數(shù)據(jù)中心布線系統(tǒng)一方面意味著基本上不會出問題,即便出了問題也一定是應用系統(tǒng)軟硬件的問題,但實際情形卻并不樂觀。CTEAM 2010年提供的數(shù)據(jù)表明,我國1000點以上的工程檢測報告的可信度在84%左右,不包括未進行光纖二級測試(后述)的比例。加上此因素后則可信度在20%以下。另一方面,如果布線系統(tǒng)出現(xiàn)問題則需要盡快發(fā)現(xiàn)、定位并盡快解決。但在云計算系統(tǒng)中,低效的布線鏈路很難被即時發(fā)現(xiàn),因為它會被系統(tǒng)誤認為是服務器資源的退化,進而分配資源給其它服務器承擔計算工作,結(jié)果造成云系統(tǒng)中可能積累大量被錯判的低效服務器,且這種誤判會持續(xù)相當長的時間,浪費大量計算資源。
那么,如何才能打造一個高可靠性的數(shù)據(jù)中心信息布線系統(tǒng)呢?
打造高可靠的數(shù)據(jù)中心信息化布線系統(tǒng)始于規(guī)劃設計階段。除了選擇品質(zhì)過硬的產(chǎn)品和能支持靈活擴容的方案,設計時預留適度備份(TIA942A要求4級的物理鏈路達到1:1備份)、采用電子(追蹤)標簽、采用“結(jié)構(gòu)化可重敷管線槽系統(tǒng)”、注意電纜系統(tǒng)散熱處理、接地處理等措施可以大大減少系統(tǒng)可靠性降低的風險。設計任務書中應標明擬采用何種方式、標準等進行驗收檢測、選型測試、進貨測試,在運行維護階段如何采取措施保證標簽準確即時更新、保證定期檢測維護的周期和內(nèi)容得以具體落實,也是提高可靠性的有效手段。具體時間中,任務書的效力在逐漸遞減,這是需要解決的一個問題。
如果在施工管理階段實施進場測試、入庫測試、隨工測試、監(jiān)理測試等流程控制,驗收階段保證普遍實施光纖二級測試、銅纜外部串擾測試,使用維護階段保證實施開通測試、維護后恢復再認證測試、擴容升級拓撲優(yōu)化調(diào)整后再認證測試,則系統(tǒng)可靠性可達高指標。
甲方如何選擇并委托有資質(zhì)和經(jīng)驗的監(jiān)理方、第三方檢測機構(gòu)來實施上述可靠性方案。目前在高可靠性特別是高密度數(shù)據(jù)中心布線系統(tǒng)工程中這還是一個尚未解決的難題。甲方如何就后續(xù)使用維護階段獲得持續(xù)的可靠性保障所需的人員、經(jīng)驗、工具也基本上處于自我摸索階段。
其實,如何實施高可靠性項目已經(jīng)是一套比較成熟的理論和方法,以下部分就如何通過檢測來保障數(shù)據(jù)中心信息化布線系統(tǒng)的高可靠性進行介紹,以期縮短這種“摸著石頭過河”不成熟期和高損失期。
如何避免開通應用時鏈路誤碼率高的問題
【案例】一家網(wǎng)絡即時通訊公司租用電信機房作為數(shù)據(jù)中心,數(shù)十條萬兆鏈路開通時工作不穩(wěn)定,端口總有錯誤,且時常重啟,由于光纖長度70~100米,損耗只有大約2.5dB,故懷疑是10G光模塊問題,更換模塊和交換機主機后問題依舊。后經(jīng)過高解析度OTDR測試發(fā)現(xiàn)是中間誤用了一段35米左右的OM1光纖。更換OM3光纖后系統(tǒng)回復正常。
由于損耗測試合格,鏈路長度不超差,故傳統(tǒng)的損耗測試(一級測試,Tier 1)在此不能發(fā)揮作用,必須引入二級測試(在一級測試的基礎上增加OTDR測試),才能檢測是否有異質(zhì)光纖、連接點/熔接點損耗超標、連接點/氣泡/裂紋/捆扎過緊是否有過強反射。為了識別1米跳線,OTDR最好使用事件分辨率指標短于1米的。