領跑智能化運維
北京2023年8月2日 /美通社/ -- 近日,國際權(quán)威研究機構(gòu)高德納(Gartner)正式發(fā)布《2023年中國ICT技術(shù)成熟度曲線(Hype Cycle for ICT in China,2023)》報告,浪潮信息作為全球領先的數(shù)據(jù)中心產(chǎn)品及方案提供商,憑借前瞻的技術(shù)布局以及領先的智能運維(AIOps)技術(shù),被Gartner評選為中國智能運維(AIOps in China)標桿廠商。
Gartner每年都會發(fā)布一份技術(shù)成熟度曲線報告,評選出業(yè)界最受關注的ICT技術(shù)。2023年ICT技術(shù)成熟度曲線涵蓋生成式AI、AIOps、邊緣計算、混合云、云原生等20余項當下最熱的ICT技術(shù)。Gartner報告通過優(yōu)先級矩陣和市場炒作熱度,深度解讀了各類技術(shù)的成熟度和采用程度,同時列舉了各類技術(shù)的標桿廠商,以幫助客戶、廠商和投資者更好地理解各項技術(shù)的發(fā)展成熟度和未來商業(yè)潛力,為企業(yè)的數(shù)字化轉(zhuǎn)型提供科學專業(yè)的參考建議。
大模型時代,IT運維管理發(fā)力AIOps平臺
隨著大模型疾風驟雨般的發(fā)展,模型迭代、參數(shù)量的擴大以及日活人數(shù)的擴大,相關算力需求指數(shù)級增長,推動了數(shù)據(jù)中心服務器規(guī)?焖贁U張。以與人工智能研究公司OpenAI合作的微軟為例,目前已有超過400萬臺的服務器部署在全球超過200個數(shù)據(jù)中心之中,且未來仍將以每年50至100個的速度新建數(shù)據(jù)中心。
數(shù)據(jù)中心規(guī)模持續(xù)、快速地增長創(chuàng)造了巨大的市場機遇。同時隨著IT基礎設施的數(shù)量不斷增加,IT運維環(huán)境的復雜性與日俱增,各類故障發(fā)生的不確定性越來越大,任何的錯誤都可能導致數(shù)據(jù)中心系統(tǒng)故障甚至業(yè)務中斷,傳統(tǒng)粗放的基礎設施運維管理也需要更加精細化、自動化、智能化。
自2016年Gartner首次將AIOps納入中國ICT技術(shù)成熟度曲線,AIOps已被業(yè)界各大廠商廣泛接納。在人工智能、大模型等新技術(shù)的促進下,AIOps 成為未來運維發(fā)展的重要方向,并呈現(xiàn)出快速替代傳統(tǒng)運維的趨勢。目前,Gartner已連續(xù)4年將AIOps納入中國ICT技術(shù)成熟度曲線第三階段,AIOps市場將不斷發(fā)展成熟,市場競爭日趨激烈,只有長期扎實投入的廠商才能不斷成長。浪潮信息是此次唯一入選標桿廠商的服務器企業(yè),這也是中國市場對浪潮信息AIOps能力的深度認可。
浪潮信息InManage,數(shù)據(jù)中心基礎設施的360°智能管家
不久前,浪潮信息發(fā)布了全新一代G7服務器,性能、可靠性和易維護性都有了進一步的提升。浪潮信息還進一步升級了數(shù)據(jù)中心基礎設施管理平臺InManage,產(chǎn)品綜合能力大幅提升的同時,重點增強了其AIOps(智能運維)能力,幫助企業(yè)用戶統(tǒng)一、智能化管理服務器、存儲、網(wǎng)絡等IT基礎設施,提高運維效率、降低運維成本,保障數(shù)據(jù)中心穩(wěn)定的運行。
針對用戶多地數(shù)據(jù)中心設備種類多,統(tǒng)一管理難度大的挑戰(zhàn),InManage通過"一中心多網(wǎng)格"的分布式設計,突破了海量IT基礎設施智能化監(jiān)控告警的難題,能夠納管多達400多種機型,支持超過10萬臺IT設備的統(tǒng)一智能化管理,是業(yè)界領先的ITIM(IT基礎設施管控)平臺。
在智能化管理方面,針對數(shù)據(jù)中心服務器運行過程中存在的CPU、內(nèi)存、硬盤等關鍵部件故障預測失效、監(jiān)控失準、告警失穩(wěn)的難題,InManage依托自研的面向基礎設施的AIOps平臺,擁有自動化數(shù)據(jù)處理、特征衍生、自動化建模工具多項創(chuàng)新能力,有效解決局部硬件概率性故障下系統(tǒng)有效容錯的問題。
(1)基于服務器日志的智能故障根因定位技術(shù)
InManage實現(xiàn)了對海量服務器帶內(nèi)、帶外日志的穩(wěn)定采集,提出了基于服務器部件告警日志,通過智能故障診斷 AI 模型,推理出服務器故障根因的整體解決方案,故障診斷精準度超過95%,遠高于業(yè)界平均標準。
(2)硬盤故障主動預測技術(shù)
InManage通過硬盤特征數(shù)據(jù)分布式采集和存取技術(shù),實現(xiàn)了線上生產(chǎn)系統(tǒng)10萬級硬盤 特征數(shù)據(jù)的高質(zhì)量采集,通過決策樹選擇、剪枝策略對隨機森林算法進行改進,構(gòu)建面向業(yè)務場景的硬盤故障預測模型,準確率超過95%。
(3)內(nèi)存故障預測技術(shù)
InManage利用設備檢查異常檢測機制,完成物理內(nèi)存故障精準位置的抓取,實現(xiàn)故障內(nèi)存物理位置向量化,基于向量化特征構(gòu)建內(nèi)存特征關聯(lián)關系模型,對內(nèi)存健康狀況有效進行實時預測性分析,與基于閾值預測方式相比準確率提升約30%。
針對基礎設施自動化過程中存在運維工具離散化,與業(yè)務場景切合度不高以及升級、配置、部署等流程復雜低效的難題,InManage在自動化運維管理方面,秉承"軟件定義基礎設施"產(chǎn)品理念,為用戶提供可定義、自編排的服務器自動化能力,覆蓋從固件升級到業(yè)務上線再到設備下架的全生命周期自動化運維場景。在某客戶數(shù)據(jù)中心近4000臺服務器上架工作中,通過浪潮信息InManage平臺,幫助用戶將部署周期從原來預計的幾十天縮短至7天,運維效率提升450%以上,保障數(shù)據(jù)中心運維效率。
目前,浪潮信息InManage憑借著這些優(yōu)勢,在海內(nèi)外收獲了廣泛的客戶認可,正在為全球互聯(lián)網(wǎng)、金融、通信、IT、教科研等用戶的數(shù)據(jù)中心,提供全程無憂的運維服務,保障數(shù)據(jù)中心業(yè)務安全、穩(wěn)定地運行。