構(gòu)建精細化運營的智慧數(shù)據(jù)中心

    隨著應用與技術(shù)的發(fā)展,數(shù)據(jù)中心的建設規(guī)模出現(xiàn)兩極分化的特征:一方面,業(yè)務集中與資源共享等趨勢推動數(shù)據(jù)中心向規(guī);较虬l(fā)展,另一方面,小型數(shù)據(jù)中心在解決資源瓶頸的問題以及提供差異化服務方面的作用日趨明顯。

    IT系統(tǒng)的集中規(guī);ㄔO與垂直化分布特征,對基礎(chǔ)設施的管理提出了全新的要求,這些要求集中體現(xiàn)在融合統(tǒng)一、持續(xù)高可用、經(jīng)濟性運營、可服務等方面,并已成為數(shù)據(jù)中心可持續(xù)發(fā)展的關(guān)鍵KPI,而以此為基礎(chǔ)的數(shù)據(jù)中心基礎(chǔ)設施管理(DCIM)成為了精細化運營建設的關(guān)鍵內(nèi)容。

1 為何需要建設精細化運營

    早期的數(shù)據(jù)中心管理側(cè)重“監(jiān)測”,管理對象單一,網(wǎng)絡簡單,煙囪化管理特征明顯,無法支撐業(yè)務的可持續(xù)發(fā)展。物聯(lián)網(wǎng)、M2M、云技術(shù)的發(fā)展,使得大量設備連接成為可能,基礎(chǔ)設施日趨整合,數(shù)據(jù)規(guī)模、復雜性增加,呈現(xiàn)出如下特征:

    1、領(lǐng)域產(chǎn)業(yè)鏈聚合,海量硬件與軟件連接,資源的統(tǒng)一管理是基本訴求;

    2、保障連續(xù)供電、連續(xù)供冷,構(gòu)建內(nèi)耗最小、功效最大的資源服務中心以應對資源集中、成本控制帶來的挑戰(zhàn),成為IDC建設、過程運營需要面對的共同課題;

    3、供電、冷卻能力、機柜空間等資源的最大化利用,成為降低TCO、延長數(shù)據(jù)中心建設周期的有效方法;

    4、同時,DCIM管理與工具快速的滲透到數(shù)據(jù)中心基礎(chǔ)設施管理的E2E流程中,為自動化、智能化的高效運維與精細化管理提供了基本的技術(shù)條件;

    建設完整的數(shù)據(jù)中心涉及基礎(chǔ)設施,技術(shù)與系統(tǒng)架構(gòu),應用與數(shù)據(jù),業(yè)務與流程,組織與運營等全方位內(nèi)容。藉由基礎(chǔ)設施的運營管理,減少數(shù)據(jù)中心運營和管理成本,提高數(shù)據(jù)中心的易用性、持續(xù)可用性和靈活擴展性,保護投資、提升回報率,幫助用戶實現(xiàn)IT創(chuàng)新甚至業(yè)務創(chuàng)新,是IDC精細化運營的基本訴求。

2 滿足要求的精細化運營框架

    數(shù)據(jù)中心建設是不同領(lǐng)域產(chǎn)業(yè)鏈的整合,基礎(chǔ)設施呈現(xiàn)出異構(gòu)、領(lǐng)域差異化特征,需構(gòu)建一個普適的管理模式,實現(xiàn)統(tǒng)一、融合的管理,以確保業(yè)務發(fā)生變化時,對系統(tǒng)進行自動調(diào)優(yōu),實現(xiàn)高效、準確的管理。

  2.1 統(tǒng)一、融合的管理

    技術(shù)、業(yè)務、流程的發(fā)展和演進,推動數(shù)據(jù)中心管理目標和功能不斷發(fā)展。

    數(shù)據(jù)中心的基礎(chǔ)設施管理已經(jīng)從基本的動環(huán)管理演進為DCIM,且范圍逐漸延伸到BMS、IT資源領(lǐng)域。

    管理體系已經(jīng)由孤立的資源監(jiān)控、系統(tǒng)及網(wǎng)絡,向著統(tǒng)一、融合,面向服務、流程自動化方向發(fā)展。

    管理功能從數(shù)據(jù)收集、發(fā)現(xiàn)、實時監(jiān)控,向歷史數(shù)據(jù)分析、決策分析、自動響應方向發(fā)展。采集實際的數(shù)據(jù)以及對數(shù)據(jù)的分析、統(tǒng)計、報告,給出執(zhí)行策略是差異化競爭力的關(guān)鍵。

    統(tǒng)一、融合的管理,要求有統(tǒng)一的數(shù)據(jù)模型,實現(xiàn)多源數(shù)據(jù)相同框架的管理;要求基于開放的平臺與體系架構(gòu),為系統(tǒng)管理工具選型提供更高的靈活性。

  2.2 實現(xiàn)與業(yè)務關(guān)聯(lián)的架構(gòu)

    IDC機房管理系統(tǒng)的目標是保障基礎(chǔ)設施的持續(xù)高可用性,為業(yè)務系統(tǒng)安全、可靠地運行提供保障。

    調(diào)查發(fā)現(xiàn),在眾多的機房中,盡管已經(jīng)部署了一定的監(jiān)控工具,但是這些監(jiān)控工具都是針對某一個系統(tǒng)或資源設計的,系統(tǒng)相互獨立,無法很好的集成(如制冷系統(tǒng)、供配電系統(tǒng)、服務器網(wǎng)絡設備之間的管理往往由不同的廠家提供,相互獨立)。

    由于缺乏集成的管道和框架,其監(jiān)控的管理信息不能共享,導致誤報警和報警重復等現(xiàn)象。同時,由于這些工具都只是面向基礎(chǔ)設施的監(jiān)控,即使發(fā)現(xiàn)問題,也不能將問題與真正的業(yè)務聯(lián)系起來,也就不能判斷此問題對業(yè)務的影響,同時無法判斷解決問題時的優(yōu)先級順序,使影響關(guān)鍵業(yè)務的問題被延遲,甚或被忽略,從而無法達成SLA的關(guān)鍵訴求。

    因此,一套能實時監(jiān)控系統(tǒng)、部件運行狀態(tài),準確地判斷對業(yè)務影響的系統(tǒng)是實現(xiàn)數(shù)據(jù)中心智能化管理的基礎(chǔ)。要實現(xiàn)基礎(chǔ)設施的關(guān)聯(lián)管理,提升運營服務水平,要求:

    1、系統(tǒng)能夠?qū)⒒A(chǔ)設施的管理與業(yè)務流程連接;

    2、系統(tǒng)能夠?qū)⑺胁煌墓芾砉ぞ哌M行統(tǒng)一和集成,實現(xiàn)信息共享;

    3、系統(tǒng)能夠根據(jù)共享的信息,建立起業(yè)務的關(guān)聯(lián)視圖。

    精細化的運營要求管理工具可將自動化和智能化融入到業(yè)務流程中,實現(xiàn)主動式監(jiān)測和管理,專注于滿足業(yè)務增長提出的可用性、容量規(guī)劃和資源利用效率需求。

  2.3 基于ITIL的最佳實踐

    基礎(chǔ)設施管理解決方案不僅關(guān)注基礎(chǔ)設施本身,而且還包括組織內(nèi)部的組織流程、指令規(guī)范、 業(yè)務。 如何將組織流程、規(guī)范及業(yè)務融合到管理系統(tǒng)中,實現(xiàn)數(shù)據(jù)整合,提升運營服務品質(zhì)是ITIL的基本理念,是數(shù)據(jù)中心對外提供服務的基礎(chǔ)。

    TIL提供了一個業(yè)務與技術(shù)相結(jié)合的框架,是IT服務管理的成功實踐總結(jié)、指導,已經(jīng)成為事實上的行業(yè)標準,借鑒ITIL,運營可以以一種受控、有序的方式向最終用戶提供服務。

    ITSM是建立在ITIL基礎(chǔ)上的數(shù)據(jù)中心管理與運營服務系統(tǒng),包括如下幾個階段:基礎(chǔ)監(jiān)控、融合集成、主動預防、自動優(yōu)化等,是一個漸進過程,處于不斷的優(yōu)化系統(tǒng)與技術(shù)的動態(tài)演進中。

圖 1 基于ITIL實踐的IDC管理階段模型

    基礎(chǔ)監(jiān)控,是IDC管理的起點,通常以數(shù)據(jù)采集、故障監(jiān)控和修復重大故障所需時間作為評估標準,往往是事件觸發(fā)式的、被動式的。

    在融合集成階段,對基礎(chǔ)設施管理評估標準為:所管理資源的可用性、在故障管理系統(tǒng)中關(guān)閉故障所需時間。要改善這些評估指標,離不開對業(yè)務流程化、最佳實踐方案的反饋與循環(huán)改進。

    在主動預測階段,保障業(yè)務系統(tǒng)的可用性和SLA,是支撐主動、高效管理的動因。對資源的性能進行評估、分析,并利用相關(guān)領(lǐng)域的技能與知識,對系統(tǒng)資源性能、問題、容量做主動式管理,對資源的優(yōu)化配置提出建議,是該階段實踐的主要內(nèi)容。

    自動優(yōu)化階段,系統(tǒng)會自動調(diào)整資源配置,以優(yōu)化性能。業(yè)務策略、業(yè)務優(yōu)先級及SLA會支配基礎(chǔ)構(gòu)架優(yōu)化的行為,如基于業(yè)務均衡的IT資源(VM)與基礎(chǔ)設施層的高效節(jié)能聯(lián)動、基于容量管理的負載均衡與資源優(yōu)化配置等。

    自主階段,使用先進的成本與收益模型、性能與業(yè)務響應及時性等來實現(xiàn)業(yè)務自動化保障、業(yè)務快速部署、資源的最大化利用,實現(xiàn)IDC建設的彈性擴展。

3 持續(xù)構(gòu)建精細化運營系統(tǒng)

    數(shù)據(jù)中心基礎(chǔ)設施精細化運營的真正潛力在數(shù)據(jù),數(shù)據(jù)中有效信息分布在不同的解決方案與DCIM工具中,信息的整合貫穿運營的每個環(huán)節(jié),是實現(xiàn)精細化運營、構(gòu)建競爭力、改變市場格局的有效手段。實現(xiàn)數(shù)據(jù)中心的精細化運營,可遵從ITIL的服務理念,圍繞數(shù)據(jù)中心持續(xù)高可用、資源最大化利用以及服務運營持續(xù)構(gòu)建。

  3.1 高效,持續(xù)高可用

    通過系統(tǒng)的監(jiān)控和管理,確保基礎(chǔ)設施的持續(xù)高可用性;通過數(shù)據(jù)的采集與分析,提升資源的利用率;通過自動化的運維模型,提升管理效率,降低成本,實現(xiàn)業(yè)務服務的敏捷化。

精細、廣泛的管理

    基礎(chǔ)設施的精細化、廣泛的管理,建立在統(tǒng)一、完備的管理模型基礎(chǔ)之上,DMTF發(fā)布的通用信息模型CIM框架提供了操作系統(tǒng)、應用程序、網(wǎng)絡和設備管理的基本模型,但要實現(xiàn)基于業(yè)務、應用的管理,則需要對模型做合適的擴展,以滿足運營的基本要求。

    在構(gòu)建高效、持續(xù)高可用的運營系統(tǒng)的過程中,滿足ITSM管理要求統(tǒng)一的數(shù)據(jù)模型的基本要求包括:

    1、自動的數(shù)據(jù)采集,設備管理、傳感網(wǎng)絡可持續(xù)采集和集中處理數(shù)據(jù)。

    2、具有虛擬現(xiàn)實的建模能力,包括IT與基礎(chǔ)設備在內(nèi)的資源,可準確的反應現(xiàn)場的配置。

    3、所見即所得,可視化的變更、配置,深入到CRAC、行、機架等級,實時可見的能力,可避免主觀臆斷的移動、添加、以及改變數(shù)據(jù)中心的配置。

    4、可持續(xù)跟蹤IT資產(chǎn)的財務數(shù)據(jù)(購買日期、成本)以及物理數(shù)據(jù)(機架中的位置)的變化,實現(xiàn)生命周期內(nèi)的資產(chǎn)管理。

    5、數(shù)據(jù)中心的能力規(guī)劃與預測,集中式的電源、散熱、空間、網(wǎng)絡占用計算可預知機架能力變化,提高資產(chǎn)利用率。

    借助統(tǒng)一的數(shù)據(jù)模型、組件化及網(wǎng)絡構(gòu)建能力,DCIM能夠管理分散的、不斷增加的成組應用,支持、收集開局、擴容、遷移、退網(wǎng)等場景下的配置、變更信息,并進行相關(guān)處理,提供相關(guān)信息,支持決策。用戶可在一個集中可視化視圖中,以一種更直觀、有效的方式來反映當前部件狀態(tài)并執(zhí)行控制任務。

前瞻性的問題管理

    IDC管理系統(tǒng)通過對基礎(chǔ)設備、連續(xù)供電系統(tǒng)、連續(xù)供冷系統(tǒng)的監(jiān)視、預測,管理粒度細化到設備的運行指標級,深入洞察,實現(xiàn)問題的前瞻性管理。

    實現(xiàn)對管理信息的簡潔化訪問,降低響應的時間,減少非計劃的停機;消除故障,在問題沒有發(fā)生之前預知;與ITSM的集成,事件管理、問題管理流程化,自動化,是前瞻性管理的必要手段:

   1、通過對連續(xù)供電、連續(xù)供冷系統(tǒng)的監(jiān)控,感知系統(tǒng)、設備的輸出能力以及性能下降,并對可能的業(yè)務影響進行分析,給出預警。

    2、利用容量管理,實現(xiàn)機柜級的供電、制冷、空調(diào)、網(wǎng)絡的分析,規(guī)避資源沖突,在確保資源最大化利用的基礎(chǔ)上,提供連續(xù)的服務。

    3、提供連續(xù)、實時的監(jiān)控工具,通過信息的簡潔化、快速訪問,降低系統(tǒng)或者網(wǎng)絡的停機時間,縮短MTTR。

    4、結(jié)合事件、問題管理流程,規(guī)避流程外的疏忽和遺漏,保障服務的持續(xù)可用性與SLA。

    智慧數(shù)據(jù)中心針對設備故障、運行性能的下降,提供容量、事件、問題管理等功能,可以預定義門限和條件,接收并處理告警、事件信息。

    針對問題管理,管理系統(tǒng)利用知識庫、實踐經(jīng)驗庫,配置相應的功能集,當業(yè)務系統(tǒng)、應用子系統(tǒng)或部件的可用性降低或者故障時,可自動感知、并實現(xiàn)主動的管理,進行自診斷、自恢復操作。使得IT人員可聚焦主要的職責,開展主要的業(yè)務。

關(guān)聯(lián)管理提升運營服務水平

    智慧管理通過配置服務策略,對資源進行監(jiān)視,發(fā)現(xiàn)影響可用性和預設服務水平的事件、狀態(tài)變化和性能降低。

    當被監(jiān)視的系統(tǒng)、設備中發(fā)生事件時,該事件被記錄并關(guān)聯(lián)到相應的業(yè)務資源。在業(yè)務系統(tǒng)影響視圖中,資源自身及依賴該資源的業(yè)務系統(tǒng)同時在界面呈現(xiàn),幫助用戶快速確定出該資源的問題是否影響到關(guān)鍵業(yè)務系統(tǒng)。

    同時,管理系統(tǒng)將事件與關(guān)聯(lián)資源的可用性和響應時間指標結(jié)合,并可將用戶或用戶組感興趣的資源組織在一起,形成業(yè)務系統(tǒng)視圖,實現(xiàn)關(guān)聯(lián)管理。

    實現(xiàn)數(shù)據(jù)中心系統(tǒng)、服務間的關(guān)聯(lián)管理,需要建設以下幾個方面的關(guān)鍵能力:

    1、構(gòu)建配置、變更管理能力,實現(xiàn)資源的自動發(fā)現(xiàn)、自動感知變更、數(shù)據(jù)同步,使用如設備面板、功耗分布圖、溫度云圖、監(jiān)視Dashboard等工具,全面掌控環(huán)境變化。

     2、建立連續(xù)供電、連續(xù)供冷、管理網(wǎng)絡等系統(tǒng)的拓撲關(guān)系圖,提供完整的部件間的上下聯(lián)關(guān)系樹,并在資源能力下降時,進行關(guān)聯(lián)影響的分析。

    3、共享的信息架構(gòu),通過業(yè)務關(guān)聯(lián)視圖,實現(xiàn)聯(lián)動控制、集群調(diào)控、資源遷移、擴容等操作,保障服務的連續(xù)性。

    4、上述管理工具與服務流程(工單)結(jié)合,實現(xiàn)發(fā)現(xiàn)、測量、分析、調(diào)優(yōu)的閉環(huán)管理。

  3.2 資源利用最大化

    隨著數(shù)據(jù)中心的平均功率密度的持續(xù)增長,機位、供電能力、制冷能力的最大化利用,成為降低運營成本的關(guān)鍵。而基于供電、制冷、機位、端口的容量規(guī)劃和管理,是支持數(shù)據(jù)中心可持續(xù)發(fā)展,實現(xiàn)資源利用最大化的關(guān)鍵技術(shù)。

負載均衡、能效最大化

    跟蹤數(shù)據(jù)中心全局(整個數(shù)據(jù)中心)或者局部(一個機架)的電源消耗模式,并通過PUE與能耗分布識別改進策略,持續(xù)優(yōu)化電源使用效率,是數(shù)據(jù)中心能效最大化運營的基本手段。通常包括如下幾個方面:

    1) 完備的數(shù)據(jù)中心能效測量、分析、優(yōu)化模型;

    2) 基于成功實踐的負載管理服務,如應用與負載均布;

    3) 能效優(yōu)化服務能力,如多機柜管理、聯(lián)動,模擬配置和部署能力。

    能耗測量是數(shù)據(jù)中心能耗管理的基礎(chǔ),包括測量點的選擇、測量參數(shù)等。能耗的管理策略決定了測量的模型,提供靈活的可定制的測量模型,可為不同場景下的數(shù)據(jù)中心能效優(yōu)化提供理論支持。

    在具體的實踐中,一般采用PUE、pPUE(局部PUE)、DCiE、能耗分布等模型來評估能效,但要準確的測量,需要系統(tǒng)能準確的描述數(shù)據(jù)中心的供電、供冷網(wǎng)絡模型。

    供電網(wǎng)絡的能耗測量借助智能電量儀、智能配電設備(如rPDU)、UPS等來實現(xiàn)。對于pPUE來說,還需要綜合考慮負載分布情況,實現(xiàn)一個電源系統(tǒng)分供多個負載的精確計算。

    供冷網(wǎng)絡的測量主要是借助冷量儀實現(xiàn),對于一拖多的供冷網(wǎng)絡,需要將支路冷量數(shù)據(jù)信息通過加權(quán)的方式將能耗分解到指定的區(qū)域負載。

    因此,供電、供冷網(wǎng)絡模型的準確性,所具有的測量條件,以及所采用的測量技術(shù)是能效準確評估的前提條件。

    負載管理服務包括規(guī)劃、監(jiān)視、配置部署幾個部分,并輔助以機位、制冷等因素,形成以供電、制冷、機位為基礎(chǔ)的容量管理,可為機架乃至數(shù)據(jù)中心的業(yè)務的持續(xù)增長提供有效的支持。

    負載規(guī)劃需要考慮整個數(shù)據(jù)中心(最小單位為一個機房)的負載部署,在保證業(yè)務連續(xù)可用性基礎(chǔ)上,通過單機柜、機柜間的負載平衡配置,實現(xiàn)如變壓器、UPS輸出的三相平衡等特性,改善整個機房的供電環(huán)境,提升供電品質(zhì)。同時,負載的均衡分布,可促成冷量的均衡分布,規(guī)避冷、熱孤島現(xiàn)象,改善機房的散熱環(huán)境,最終顯著的提升PUE。

    通過規(guī)劃設計能夠在數(shù)據(jù)中心建設初期確保設計的目標,但在實際的運營過程中,這些配置也不是靜態(tài)的,會隨著業(yè)務的伸縮不斷的動態(tài)變化,如物理設備的移動、變更、擴容服務,以及虛擬機的遷移等。一個具有跟隨配置變更的能效調(diào)控工具是實現(xiàn)能效優(yōu)化運營的基本需求,應該具有多機柜關(guān)聯(lián)管理、聯(lián)動、模擬配置和部署能力。實施可參考:

    1) 實時監(jiān)視功耗,了解服務器/機架的平均和峰值功率。利用能耗管理工具,通過減少空閑容量的配置,提升電力資源的利用率;

    2) 實時測量IT服務器的負載,并按照空調(diào)最佳COP調(diào)節(jié)制冷輸出,通過實時的負載溫度監(jiān)測和制冷容量的自適應控制,實現(xiàn)按需供冷;

    3) 根據(jù)功耗分布,給出負載規(guī)劃、配置優(yōu)化建議,實現(xiàn)負載再平衡。


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡AI應用典型場景技術(shù)解決方案白皮書
  • 2、回復“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復“TXSB”免費領(lǐng)取《通信設備安裝工程施工工藝圖解
  • 7、回復“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息