通過SLA 改善網(wǎng)絡(luò)應(yīng)用性能


摘要

  成功的服務(wù)水平管理(SLM)需要一種前瞻性的手段,但是現(xiàn)今大多數(shù)的管理工具主要工作在激勵響應(yīng)的模式。在這篇文檔里,我們描述了通過合適的工具,讓您的團隊從像消防員一樣去解決網(wǎng)絡(luò)故障,轉(zhuǎn)變成高級網(wǎng)絡(luò)規(guī)劃人士。

  做為把IT 資源與商業(yè)目標(biāo)結(jié)盟的一個方法,SLM 正受到普遍的關(guān)注。服務(wù)水平管理(SLM)幫助您控制服務(wù)水平(始終如一的滿足客戶的需要),持續(xù)的改善運營效率。它提供了一種方法來衡量IT 收益率,這比衡量IT 總資產(chǎn)要好。

  本白皮書討論了實施一個成功的SLM 需要考慮的事情和決定,詳細設(shè)計了如何用服務(wù)水平目標(biāo)(SLO)來定義服務(wù)水平認證(SLA),完成商業(yè)目標(biāo)。本白皮書展現(xiàn)了SLA 的常見的陷阱以及如何避免他們;探究選擇和衡量SLO 的細節(jié);采用已有的工具前瞻性的工作。

  合適的SLO 選擇是SLA 成功的關(guān)鍵。本白皮書描述了如何選擇測量參數(shù)進行測試,判定重點是在客戶,服務(wù)器或者網(wǎng)絡(luò)。它解釋了選擇統(tǒng)計值,平均值或者百分比對管理策略的實際影響,以及如何選擇確定一致性的標(biāo)準(zhǔn)。同時對不同商業(yè)解決方案進行評估,突出不同方案的長處、短處和潛在的商業(yè)影響。

  通過服務(wù)水平管理(SLM)基線,認識到如何在您的企業(yè)成功執(zhí)行正確的SLA。

介紹

  傳統(tǒng)的服務(wù)水平管理(SLM)基本只是單獨依靠有效性進行監(jiān)測。服務(wù)(網(wǎng)絡(luò)、服務(wù)器或者應(yīng)用)必須99.999%的時間“UP”。這個度量標(biāo)準(zhǔn)容易理解,看起來好像為最終用戶提供了真正的價值。然而,該度量標(biāo)準(zhǔn)不能滿足關(guān)鍵的SLM 目標(biāo)、客戶的需求、并進行持續(xù)的改進。它不能滿足客戶的需求,因為服務(wù)在“UP”狀態(tài)的同時,很可能只有很低的、幾乎不能使用的性能。它不能推動持續(xù)地改進運營效率;更確切地說,它更多地關(guān)注于很少發(fā)生的事件。

  為了功效最大化,SLM 除了可用性之外,必須牢固地扎根于性能。它必須把最終用戶的體驗擱在心上,而不僅僅是架構(gòu)的狀態(tài)。而且,它必須這么做。幸運的是,SLM 工具最終朝著能夠滿足這些需求的方向發(fā)展。今天的SLM 工具將積極地鼓勵網(wǎng)絡(luò)管理從被動方式轉(zhuǎn)變?yōu)榍罢靶苑绞,通過提供4 個關(guān)鍵關(guān)鍵領(lǐng)域的功能:多級報告,早期檢測,快速定位,以及機會發(fā)現(xiàn)。除了這些之外,它必須是方便配置,方便管理,方便使用的架構(gòu)。

  SLM 為了高效必須仔細定義服務(wù)水平目標(biāo)(SLO)。有3 個關(guān)鍵變量應(yīng)該被測量:最終用戶響應(yīng)時間,服務(wù)器響應(yīng)時間,和網(wǎng)絡(luò)時延。但是如何測量這3 個變量,主動的還是被動的,是成功了還是沒有達到期望的結(jié)果。SLO 可以基于時間平均數(shù),時間平均數(shù)百分比,或者基于事件百分比。很多市場上的工具,采用時間平均為基礎(chǔ)的SLO 進行跟蹤,然而,這種方法有一個缺陷,對個人用戶來說,大多數(shù)用戶的平均值,可能并不必要。基于事件百分比跟蹤方式的SLO,技術(shù)門檻較高,它精確地捕捉了用戶的體驗。然而,現(xiàn)在運行的、穿過一個企業(yè)網(wǎng)的解決方案,很少可以有效地實現(xiàn)這個方法。

  SLO 門限的配置,應(yīng)該根據(jù)用戶的需求來定。這些需求根據(jù)應(yīng)用和網(wǎng)絡(luò)接入方式而變化。通常,2 個門限應(yīng)該被指定。第一門限,應(yīng)該是反映用戶感到不滿意的位置。第二門限,應(yīng)該是系統(tǒng)性能較差,導(dǎo)致的重大的商業(yè)損失的位置。如果SLO支持百分比門限,應(yīng)該隨著時間調(diào)整他們,從而連續(xù)地改善運營、控制時延變化。

通過SLM 前瞻性管理

  要達到SLM 目標(biāo)必須改變慣性思維。大多數(shù)IT 團隊現(xiàn)在都運行在一種被動模式。他們大多數(shù)的時間都用在進行危機處理,盡力去抑制和解決故障。通過SLM 管理IT 資源,IT 部門可以預(yù)見問題、快速地解決,讓IT 團隊從被動做出反映,轉(zhuǎn)變?yōu)橹鲃拥、前瞻的團隊。這個行為模式上的變化,無疑需要部門培訓(xùn),但是,合適的工具可以提供一個臨界的跳躍,來幫助人們用一種新的觀點評估網(wǎng)絡(luò)性能。

  SLM 工具不只是監(jiān)測和分析的手段。它確保了必要資源的提供,與商業(yè)用戶的需求結(jié)合起來。SLM 工具的第一需求是保證策略行動的自由時間。一些工具部署、管理是如此的麻煩,使用他們并不能重大的節(jié)約IT 團隊的時間。SLM 工具的選擇必須是容易使用和著眼于真正有效的功能。

  SLM 工具的易用性代表了該工具被部署管理和使用的成功程度。這是由SLM 的架構(gòu)、將要部署該工具的環(huán)境細節(jié)決定的。一個在全球性企業(yè)管理起來很麻煩的工具,可能對一個稍小的企業(yè)就很合適。一個對mesh 網(wǎng)絡(luò)的離譜的工具,可能對一個hub-and-spoke 環(huán)境是合理的價格。一個需要在不同的IT 團隊 (舉例來說,管理桌面支持的或者廣域網(wǎng)應(yīng)用的團隊) 之間不斷協(xié)調(diào)的工具,可能是一個強烈壓力來源,也可能是一個機會⋯⋯,但是它經(jīng)常是壓力和無效率的來源。

  一個SLM 工具必須鼓勵從被動性管理轉(zhuǎn)變到前瞻性管理。達到這一點通過提供4 個關(guān)鍵領(lǐng)域的功能:多等級報告,早期檢測,快速定位,機會發(fā)現(xiàn)。這些領(lǐng)域?qū)⒃谶@篇文檔的后面討論。

價值變量

  部署一個SLA 最初的決定之一包括選擇變量。SLA 將采用什么變量做測量參數(shù)?最終用戶的期望和IT 團隊所能提供的指標(biāo)經(jīng)常是一個沖突。最終用戶需要有直觀意義的測量參數(shù),典型的就是最終用戶響應(yīng)時間。IT 團隊需要一個他們能夠管理的測量參數(shù)(舉例來說,如果他們不控制服務(wù)器簇,他們不愿意測量服務(wù)器問題)。一個好的折衷是多選一些參數(shù),就不會選錯了;檢測有共同理解的參數(shù),就減少了出錯的責(zé)任。

最終用戶性能

  不管現(xiàn)有的SLA 是否測試最終用戶應(yīng)用的響應(yīng)時間,都應(yīng)該測試該參數(shù)。這個變量表明最終用戶真正的感覺,推動IT團隊和最終用戶之間的交流。表達最終用戶體驗最常用的方法是通過測量處理事務(wù)次數(shù)及其組成成分。

  測量最終用戶體驗最終的決定是測量什么事務(wù)和如何測量他們。應(yīng)該測量每一種不同的事務(wù)處理還是僅僅選擇一些?以前的模型要求可量測性的集成,結(jié)果是有點丟失了可視性。后來是選擇很少的通用的、代表性的、重要的事務(wù)。2 種方法的結(jié)合通?梢援a(chǎn)生滿意的結(jié)果。換句話說,2 種方法的需求并不是排斥的。

  實際用戶應(yīng)該進行被動監(jiān)測,還是采用綜合性的探針主動監(jiān)測?以前要求絕對達到SLM 目標(biāo)。后來要求提供對故障解決非常有用的確定基線。最好的途徑是結(jié)合被動監(jiān)測和少量綜合探針;采用這個方式,2 種途徑的好處都可以有效地實現(xiàn)。

服務(wù)器性能

  SLA 服務(wù)器響應(yīng)時間無論如何也應(yīng)該被監(jiān)測。服務(wù)器響應(yīng)時間對快速定位是否因為服務(wù)器的原因引起了最終用戶響應(yīng)時間惡化非常有用。這個度量標(biāo)準(zhǔn)也可以用來跟蹤數(shù)據(jù)中心的服務(wù)水平質(zhì)量(QOS)。服務(wù)器響應(yīng)時間也是網(wǎng)絡(luò)優(yōu)化和規(guī)劃的基礎(chǔ)。

  一些重要的問題與如何測量服務(wù)器響應(yīng)時間有關(guān)。如果綜合探針被重復(fù)性的用來處理同樣的事務(wù),就可能在客戶端或者服務(wù)器端緩存結(jié)果。緩存的作用影響了測試結(jié)果,它沒有代表實際的用戶體驗。如果服務(wù)器緩存信息,它還不能選擇清除。如果事務(wù)處理是隨機的,那么綜合探針就不可避免的失去了作用。緩存的影響,致使終合探針給服務(wù)器響應(yīng)時間的測量帶來誤差。針對所有事務(wù)和所有系統(tǒng)用戶,被動的監(jiān)測服務(wù)器性能,能夠消除這個問題,并且還能在監(jiān)測一段時間以后,提供一個有用的性能基線。

網(wǎng)絡(luò)性能

  網(wǎng)絡(luò)時延是另一個必須監(jiān)測的SLA 衡量標(biāo)準(zhǔn)。與服務(wù)器性能相同,網(wǎng)絡(luò)性能對快速判定是否因為網(wǎng)絡(luò)問題導(dǎo)致最終用戶響應(yīng)時間惡化,是非常有用的。網(wǎng)絡(luò)性能度量標(biāo)準(zhǔn)-比如環(huán)回時間(RTT)-可以用來衡量從網(wǎng)絡(luò)服務(wù)提供商獲得的服務(wù)水平。對網(wǎng)絡(luò)時延連續(xù)性的監(jiān)測,對網(wǎng)絡(luò)優(yōu)化和規(guī)劃也是非;镜摹

  有幾種通用的方法測量網(wǎng)絡(luò)時延。主動的方法包括執(zhí)行ICMP ping 或者TCP session 連接。被動的方法包括測量TCPsession 連接或者更多終合的應(yīng)用數(shù)據(jù)包。每一種方法,網(wǎng)絡(luò)時延測量基于觀察終合的應(yīng)用數(shù)據(jù)包,提供最精確的性能表現(xiàn)。理解網(wǎng)絡(luò)時延的組成是非常重要的,對識別每一種方法的優(yōu)點和缺陷非常重要。網(wǎng)絡(luò)延時包含5 個組成:傳輸、排隊、傳播、處理和協(xié)議時延,如下所述。

  字節(jié)封包傳送或者傳輸時延是把所有比特打成包在傳輸媒介之上的時間要求。它是依賴于包尺寸和鏈路接入速率。一個64 字節(jié)的包在56Kbps 鏈路上有18.3 毫秒的環(huán)回時延。256Kbps 鏈路有4 毫秒,1.5Mbps 鏈路有7 毫秒。一個1500 字節(jié)的包相應(yīng)的分別有428.6 毫秒,93.8 毫秒,16 毫秒的連載長篇的時延。TCP session 連接主要是64 字節(jié)包。結(jié)果導(dǎo)致,測試其他的應(yīng)用時延的時候,基于TCP session 測量經(jīng)驗,將通常低估網(wǎng)絡(luò)時延。ICMP ping 可以配置為各種尺寸的包,但是包尺寸在來回2 個方向是相同的。我們依靠經(jīng)驗從用ICMP 精確捕獲的傳輸時延,大多數(shù)的應(yīng)用并沒有這種對稱性。注意,默認的ICMP 包尺寸也是64 字節(jié)。

  排隊延遲是在包在緩存里等待自己的發(fā)送開始所要花費的時間。它依賴于包先前用到的包傳輸時延,緩存大小,擁塞程度,和路由器、交換機的排隊機制的配置。擁塞能夠以毫秒級別變化,而一個TCP session 可以按秒、小時、甚至按天保持。因而,依靠TCP session 連接的排隊時延明顯的不同于主要應(yīng)用。同樣的是任何預(yù)定的探針例如ICMP,排隊時延與應(yīng)用的經(jīng)驗有很少的類同之處,甚至早60 秒。另外,路由器或者交換機可以把ICMP 包放進優(yōu)先級(不是好一些就是差一些)隊列處理。在擁塞時期,在應(yīng)用包等待時,ICMP 包首先被丟棄-因此,時延更長的話ICMP 就測不到了。ICMP 包可以優(yōu)先的移至隊列頭,從而經(jīng)歷了短的時延;ICMP 也可以選擇性的移至隊列的后面,從而經(jīng)歷了長的時延(如果不被丟棄的話)。

  傳播或者距離時延是沿著順著物理路徑傳輸所花的時間。它僅僅依靠距離和媒體類型。如果TCP session 連接和ICMP包做為主要的應(yīng)用通過同樣的物理路徑傳送,那么傳播時延是一樣的。然而,它并不保證同樣的傳送路徑。

  處理時延是路由器或者交換機準(zhǔn)備傳遞包所花的時延。它依賴于很多因素,但通常是無關(guān)緊要的。注意TCP session連接可能比流里面其他的包需要更多的處理,ICMP 需要更少的處理。

  協(xié)議時延是基于協(xié)議基礎(chǔ)的包等待時間。舉例來說,在一個共享媒體,包必須等待它的輪訓(xùn)才可獲得接入。這類時延影響根據(jù)協(xié)議的不同,變化很大。

  總的來說,用ICMP ping 包測量網(wǎng)絡(luò)時延只是展現(xiàn)了對網(wǎng)絡(luò)的簡單印象;赥CP session 連接的網(wǎng)絡(luò)時延測量,僅僅展現(xiàn)了64 字節(jié)大小的包在會話建立的時候(秒,小時,甚至幾天前)經(jīng)歷的延遲。采用被動的觀察通常的應(yīng)用包的方法,是最有效的測量網(wǎng)絡(luò)時延的手段,它放映了用戶實際的感覺。

服務(wù)可用性

  做為SLM 策略的一部分,服務(wù)可用性應(yīng)該明確地被監(jiān)測。傳統(tǒng)的方法進行故障管理要求網(wǎng)絡(luò)跟蹤、測試服務(wù)器設(shè)備可用性。這能夠通過激活代理軟件,或者用探針周期性的測試所選事務(wù)實現(xiàn)。如果探針按15 分鐘周期運行,從開始以后,能夠檢測到一個持續(xù)的大概7.5 分鐘的運轉(zhuǎn)中斷。然而,間歇性的簡短中斷將不能被檢測,也不能根據(jù)SLO 跟蹤。更頻繁的檢測應(yīng)該可以檢測到更短的運轉(zhuǎn)中斷,但是會給系統(tǒng)帶來負載開銷的增加。

難以捉摸的統(tǒng)計

  無論是否意識到,當(dāng)執(zhí)行SLM 的時候,下一個重要的決定是統(tǒng)計。SLA 應(yīng)該基于時間平均還是事務(wù)百分比?一個基于時間平均的SLA 應(yīng)該要求,舉例來說,平均最終用戶響應(yīng)時間應(yīng)該小于3 秒。一個基于百分比的SLA 也應(yīng)該要求,舉例來說,95%的事務(wù)處理時間應(yīng)該小于3 秒。

  選擇基于時間平均的SLA 的優(yōu)點是幾乎每個SLM 廠家都支持,在工具選擇的時候有很大的自由度。不幸的是,時間平均不提供用戶正在感受到的體驗。舉例來說,假設(shè)有9 個用戶每人觀測到有0.5 秒的響應(yīng)時間,而第10 個用戶收到90 秒的響應(yīng)時間。那么平均響應(yīng)時間的報告是9.5 秒-這與任何一個用戶的實際感受都有很大的不同。因為這種不對稱的敏感性,是非常難以達到平均的。如果第10 個用戶收到一個180 秒的響應(yīng)時間(超過90 秒)而其他用戶還是保持0.5 秒,平均值接近是剛才的2 倍-雖然只有1 個用戶感到性能惡化。

  一些廠家報告了一種能夠減少這種不對稱敏感性的均衡的平均值;他們丟棄了超過預(yù)設(shè)門限的測量結(jié)果。在前面的例子,針對0.5 秒的均衡平均值,預(yù)設(shè)門限將會是2 秒。這種方法的危險是很可能掩飾了非常真實的網(wǎng)絡(luò)問題。如果問題繼續(xù)發(fā)展,有7 個用戶的響應(yīng)時間變成了2.5 秒,而報告的均衡平均值將會仍然是0.5 秒-即使80%的用戶因為性能惡化已經(jīng)感到難受了。在現(xiàn)有大多數(shù)環(huán)境的狀態(tài)都不相同的情況下,選擇一個合適的門限幾乎是不可能的。確實發(fā)生的是,因為這種均衡,性能最差的站點曾經(jīng)被報告為性能最好的站點。

  基于事件百分比的SLA 可能不會受到這種不對稱性影響,可以直接與客戶體驗相關(guān)。如果95%的事務(wù)的響應(yīng)時間小于3秒,剩下5%的響應(yīng)時間值就不具有重大的意義。基于均衡平均值的SLA 忽略了所有超過預(yù)設(shè)門限的響應(yīng)時間。如果所有的響應(yīng)時間都超過了門限,那就沒有度量值了;谑录俜直鹊腟LA 忽略了預(yù)設(shè)門限(本例中的5%)的響應(yīng)時間。

  基于事件百分比的SLA 更優(yōu)于基于時間平均的SLA;然而,SLM 廠家的選擇就更受限制了。事件百分比相對平均值,在監(jiān)測技術(shù)上更具挑戰(zhàn)性。因此很少有廠家支持這個選項。一些廠家選擇了一個混合的方案報告平均百分比(好過比事件百分比簡單)。舉例來說,基于這種混合方式的SLA 將會要求,如果月平均值為5 分鐘,那么95%的響應(yīng)時間必須少于5 秒?傊,SLA 可以基于時間平均,基于時間平均百分比,或者基于事件百分比;跁r間平均的SLA 伴隨有不對稱問題;結(jié)果是可能不能體現(xiàn)客戶的真正體驗。基于事件百分比的SLA 更高級一些,但是沒有廣泛的執(zhí)行。

定義細節(jié)

  另一個重要的決定是確定實際目標(biāo)。每一個變量有多少目標(biāo)?用什么期限來確定一致性?什么門限和百分比是合適的?這些細節(jié)定義應(yīng)該牢固基于用戶期望來精確測量用戶體驗。

  有2 個有趣的門限;微小的和痛苦的。小于“微小的門限”的時延不能引起用戶注意。時延很小,屬于用戶的期望范圍內(nèi)的,不需要去暗示,他們不會產(chǎn)生任何煩惱。超過“痛苦門限”的時延導(dǎo)致用戶放棄。這種時延在丟失商業(yè)機會或者員工生產(chǎn)力方面是非常昂貴的。在2 個門限之間的時延,典型地是應(yīng)用不暢。

  這2 個門限并不知名,但是通過實驗(依靠合作的或者不知情的用戶,依據(jù)某種策略)可以發(fā)現(xiàn)。一些通用的值經(jīng)常被引用,瀏覽頁面的2 個門限值是3 秒和8 秒。然而,門限經(jīng)常依賴網(wǎng)絡(luò)接入方式和自身的應(yīng)用。舉例來說,用戶通過衛(wèi)星接入娛樂網(wǎng)站入口相對通過陸地E3 電路接入技術(shù)熱線,能夠容許有更大的時延。針對每一種應(yīng)用和接入組,將會定義一個分離的SLA。

  門限應(yīng)該基于用戶需求定義。如果SLA 支持百分比,百分比應(yīng)該隨著運營質(zhì)量改善而調(diào)整。用戶傾向于對時延變化更敏感,而不是孤立的值。增長的百分比有效地控制了延遲變化。做為一個例子,假定SLA 開始規(guī)定95%事件響應(yīng)時間必須小于3 秒而且98%必須小于8 秒。目標(biāo)應(yīng)該是把百分比增加到,比方說,經(jīng)過一段時間調(diào)整,分別增加到96%和99%。降低3 秒的門限對業(yè)務(wù)可能沒有什么影響,既然3 秒已經(jīng)是一個可以接受的值。

  針對特別用戶,門限維護操作窗口可能對SLA 特別合適。門限應(yīng)該是在定義階段就確定好,好過SLA 不可達后再定義。注意,現(xiàn)在很少有廠家支持該特征。如果所選的廠家不支持,那么定義的百分比應(yīng)該按補償性方式向下調(diào)整。

  總而言之,SLA 中使用的門限應(yīng)該基于用戶的需求。這些需求根據(jù)應(yīng)用和網(wǎng)絡(luò)接入方式的不同而不同。總的來說,2 個門限應(yīng)該被詳細說明的。低于最低門限低的時延對用戶沒有影響;高于最高門限的時延會有明顯的業(yè)務(wù)開銷。如果SLA 支持百分比,應(yīng)該在時間上通過調(diào)整百分比,來推動運營的連續(xù)改善和控制時延變化。

選擇合適的SLM 解決方案

  向前面提到的,SLM 必須積極的鼓勵從被動管理到前攝管理的轉(zhuǎn)變。自動化SLM 解決方案必須提供4 個領(lǐng)域的功能:多級報告,早期檢測,快速決定,和機會發(fā)現(xiàn)。這些領(lǐng)域在下面的章節(jié)將會詳細討論。

多級報告

  一些廠家宣稱他們的工具支持SLM,確把解釋和實現(xiàn)留給用戶。當(dāng)然,對數(shù)據(jù)包的捕獲支持SLM,但在有限的時間并不是總實用的。如果僅僅提供高層“管理”,但是沒有提供采取合適行動的必須細節(jié),沒有一個工具是實用的。SLM 工具應(yīng)該提供從高層狀態(tài)到技術(shù)水平細節(jié)的方便導(dǎo)航,越方便越好。簡短的說,應(yīng)該提供多級報告。高級別總結(jié)信息,對沒有技術(shù)背景的用戶最重要,同時,瞄準(zhǔn)于快速達到相關(guān)技術(shù)細節(jié)的導(dǎo)航也很重要。

最高級SLA 報告

  最高級的SLA 報告(見圖1)為商業(yè)用戶提供了一個不同的SLA 一致性的概覽。如果要求更多的細節(jié),點擊任何應(yīng)用的名字,進入一個說明該應(yīng)用的更詳細的一致性界面。


圖1、最高級SLA 報告


  圖2 展示了peoplesoft 應(yīng)用的一致性測量標(biāo)準(zhǔn)。這個SLA 要求95%的peoplesoft 事件響應(yīng)時間小于2 秒(標(biāo)準(zhǔn)1),99%的響應(yīng)時間小于4 秒(標(biāo)準(zhǔn)2)。Peoplesoft 服務(wù)與SLA 一致,因為99%的事件小于4 秒,99.8%的事件小于2 秒。


圖2、最高級SLA 報告——PeopleSoft


  圖3 表示了更適合IT 管理或者技術(shù)用戶的一致性視圖。該視圖提供報告和違背計數(shù),也提供更多的修改選項來改變報告包含的信息。最高級的報告提供非常有用的故障點定位和違背,但是不提供足夠的信息來指導(dǎo)任何矯正行為。


圖3、最高級SLA 報告——所有應(yīng)用


中級SLA 報告

  中級SLA 報告提供不同時間的、空間的、邏輯的SLA 一致性總結(jié)視圖。舉例來說,圖4 展示基于時間的SLA 一致性,周期性地展示需要更深入地研究的故障間隔時間。


圖4、中級SLA 報告——根據(jù)時間的訂單管理系統(tǒng)


  能選擇用戶區(qū)的視圖應(yīng)該也被提供,判定不適當(dāng)數(shù)量的違背,是一個單獨的服務(wù)器或者特別的組用戶所引起的。舉例來說,如果SLA 違背是一部分客戶站點引起的,在圖5 中的客戶區(qū)將會很明顯。這些視圖IT 團隊理解如何把應(yīng)用聯(lián)系到一致性的基本幫助。


圖5、中級SLA 報告——根據(jù)網(wǎng)絡(luò)子網(wǎng)/用戶組


低級報告

  低級報告對快速解決出現(xiàn)的性能問題是很基本的,同時也幫助IT 資源的有效分配。他們提供理解錯誤范圍和原因所要求的必要的細節(jié),讓IT 員工采取相關(guān)行動。這些低級報告包括自動調(diào)查的結(jié)果(圖6),同時包括性能圖表信息和統(tǒng)計(圖7)。


圖6、低級調(diào)查報告



圖7、低級響應(yīng)時間部件


智能基線報告

  除了根據(jù)一個靜態(tài)的SLA 門限跟蹤性能,理解現(xiàn)在的性能與過去的性能的比較也是非常重要的。用戶的期望是根據(jù)他們以前的應(yīng)用-你可能很好的在你SLA 范圍里面,但是仍然讓客戶感到不舒服,因為響應(yīng)時間比他們以前的慢了。該類型的報告能夠產(chǎn)生,提供一條計算過的應(yīng)用性能的基線。這條基線應(yīng)該重視最近和歷史系統(tǒng)性能。圖8 展示了一張高級視圖,每一種應(yīng)用性能與其歷史基線的對比。圖9 展示了一張中級視圖,citrix 過去8 小時的應(yīng)用性能與以前性能的對比。


圖8、高級智能基線報告



圖9、中級智能基線報告


早期檢測

  每個人都很熟悉在企業(yè)網(wǎng)里發(fā)現(xiàn)問題和危險的最普遍方法:電話響了或者收到緊急的郵件。大多數(shù)IT 團隊沒有時間專注于每一次單獨跑進他們辦公室的的不滿。除非問題發(fā)現(xiàn)的早,團隊可以花更多的時間解決問題,否則沒有時間去滿足商業(yè)客戶的長期需求。

  SLM 工具必須有自動發(fā)現(xiàn)問題釀成大錯前初期征兆的能力。這種自動查找機制,能夠把報告區(qū)分優(yōu)先級,是前瞻操作的臨界應(yīng)用。當(dāng)早期的工具依靠預(yù)先配置的靜態(tài)門限檢測問題的時候,新一代的工具采用自學(xué)習(xí)機制。新的工具在對日常的每天、每周、每月周期性捕捉的同時,學(xué)習(xí)應(yīng)用、服務(wù)器和客戶區(qū)“典型的“行為。他們知道一個月里最后一個星期五通常比其他時間慢;他們不會產(chǎn)生一個報警,除非相對學(xué)習(xí)到的這個時間的標(biāo)準(zhǔn),性能很差。

  智能化基線自動發(fā)現(xiàn)發(fā)展中的問題,在潛在問題被用戶感知之前給IT 團隊發(fā)出警告。這種早期發(fā)現(xiàn)機制減少了平均修復(fù)時間(MTTR),提高生產(chǎn)力,增強團隊的聲譽。新的工具可以穿過企業(yè)查找異常、低效率、和其他要改善的地方。他們提供對收到數(shù)據(jù)的24X7 的性能監(jiān)測和分析。

圖10 提供了一個交替的最高級性能視圖-在過去2 個星期檢測到的臨界性能事件詳圖。


圖10、高級事件報告


  識別可用性和性能問題一樣都是很基本的。積極監(jiān)測對這個功能是特別有用的,但是他們有幾個缺陷。按照標(biāo)準(zhǔn)的執(zhí)行方式,積極監(jiān)測周期性地測試可用性(和性能)。他們被計劃每5 分鐘、或者15 分鐘、或者30 分鐘運行一次。如果探針被計劃每15 分鐘運行一次,出現(xiàn)斷線要平均7.5 分鐘后才檢測到(但也可能是15 分鐘后才檢測到)。輪詢時間越短,探針能夠越快的檢測問題-但是時間縮短給網(wǎng)絡(luò)和服務(wù)器增加了更大的壓力。因為這個壓力原因,積極檢測只能從選擇的區(qū)域選擇事務(wù)測試。這種被迫的選擇很普遍,以至于探針不能檢測到他們希望檢測到的情況。

  一個更好的方法是把觸發(fā)式的主動調(diào)查與被動性監(jiān)測結(jié)合起來。僅僅在監(jiān)測到?jīng)]有流量的不正常情況,網(wǎng)絡(luò)或者服務(wù)器才會激活探針-在那個時候,壓力很小,只要不是真正的斷線了。使用這種方法,網(wǎng)絡(luò)中斷能夠很快檢測到,而不需要給網(wǎng)絡(luò)或者服務(wù)器增加壓力。

  不管實際執(zhí)行情況怎么樣,早期檢測和可用性問題都是SLM 的基本組成部分。

快速定位

  SLM 工具的選擇不能僅僅局限于檢測發(fā)現(xiàn)問題,也必須輔助問題的快速定位。多級報告當(dāng)然很好的推動了這一點,特別是把“點擊即可瀏覽詳細信息”的導(dǎo)航接口集成進來的時候。以表格為基礎(chǔ)的客戶報告非常的靈活,但是他們提供痛苦和麻煩的接口。支持概覽好過支持麻煩的表格。

  自動調(diào)查能夠明顯的節(jié)約時間,而且需要很少的人工配置。當(dāng)一個開發(fā)服務(wù)器檢測到有問題的時候,增加的信息例如CPU 利用率、存儲器使用、頂級進程都結(jié)合在一塊了-在那時候,問題出現(xiàn)了。當(dāng)一個開發(fā)網(wǎng)絡(luò)確定有問題的時候,應(yīng)該執(zhí)行路由跟蹤或者收集附加的MIB 統(tǒng)計。這種觸發(fā)式的調(diào)查能夠節(jié)省很多診斷資料的收集。

連續(xù)性改進

  SLM 的一個主要目標(biāo)是連續(xù)性改進。早期檢測和快速定位問題確實改進了運營效率。然而這些行為實際上仍然是被動的。服務(wù)一定要不可接受(接近SLA 門限)或者開始惡化(被智能基線檢測到)才會觸發(fā)行動。如果服務(wù)在一個很穩(wěn)定確效率低下的狀態(tài),就不會被注意到。SLM 工具應(yīng)該提供一種機制快速發(fā)現(xiàn)這種低率,而且確定改進機會。

  這種特征的一個例子,在圖11-15 的報告顯示。這些性能圖提供了更高水平的視圖,這些視圖對改善性能是非常有用的。這些圖選擇一系列選項,包括應(yīng)用、客戶區(qū)域、服務(wù)器、感興趣的測量標(biāo)準(zhǔn)、排序次序、和時間范圍。

  接下來的3 個段落提供了如何有效地應(yīng)用這些性能圖表的例子!皯(yīng)用無效和機會”展示了性能圖表在一個多級應(yīng)用里能夠如何展示交互作用!熬W(wǎng)絡(luò)無效和機會”展示了性能圖表如何提供企業(yè)時延組成圖表,流量矩陣,方便用戶做容量規(guī)劃、問題的優(yōu)先級別劃分!胺⻊(wù)器無效和機會”描敘了性能圖表如何能夠識別問題服務(wù)器和無效的負載均衡。

應(yīng)用無效和機會

  圖11“根據(jù)應(yīng)用的處理時間”描述了一個多級部署的、全球性的ERP(企業(yè)資源計劃)應(yīng)用性能圖表。Superagent 監(jiān)測該應(yīng)用的每一級:web 圖形用戶界面(ERP 系統(tǒng))、用戶認證(LDAP 目錄)、文檔交換(netbios/TCP)、和后臺數(shù)據(jù)庫(oracle9i DB)。通常,圖形用戶界面有最大的平均處理時間(1.51 秒),而后臺數(shù)據(jù)庫有最小的平均處理時間(0.04 秒);用戶認證有0.53 秒的時延。這個性能圖表提供了每一種應(yīng)用等級的快速概覽,和它們之間是否是否有相互影響。如果圖形用戶界面和數(shù)據(jù)庫時延都很高的話,那么好像一個應(yīng)用受到了另一個應(yīng)用的影響。在這個案例里,用戶應(yīng)該點擊一個應(yīng)用名,深入到低一級的詳細報告,查看2 個應(yīng)用之間的相關(guān)性,定位問題來源。


圖11、中級應(yīng)用事物處理時間


網(wǎng)絡(luò)無效和時機

  性能圖表能用來產(chǎn)生網(wǎng)絡(luò)時延和丟包圖表。圖12 展示了“客戶區(qū)網(wǎng)絡(luò)環(huán)回時延(RTT)”,給出了通過穿過完整企業(yè)網(wǎng)的網(wǎng)絡(luò)性能快速概覽。所有站點都被包括了,并且根據(jù)描敘做了排列,用來提供網(wǎng)絡(luò)熱點的視覺辨認。舉例來說,VPN 用戶有相比其他人差的性能,而所有在企業(yè)總部的用戶享受著快速的性能。


圖12、網(wǎng)絡(luò)回時延圖——查找關(guān)鍵處


  圖13 的“客戶區(qū)字節(jié)丟失百分比”性能圖表展示了丟包百分比最多的15 個用戶區(qū)(通過圖表排列比通過描述或者地址好的多)。高丟失率可能是錯誤或者沖突引起的;在其他案例,它表明了明顯的失效和改進的時機。因為網(wǎng)絡(luò)的狀況,在匹茲堡和El Paso 的用戶的生產(chǎn)力受到嚴重的限制。


圖13、網(wǎng)絡(luò)損耗圖——最差站點


服務(wù)器無效和時機

  通過服務(wù)器簇成員的對比,性能圖表能用來確定問題服務(wù)器。圖14 的“服務(wù)器拒絕會話”性能圖表展示了ERP 服務(wù)器1 過載或者故障。圖15 的“服務(wù)器響應(yīng)時間”性能圖表用圖說明了WEB 服務(wù)器簇在提供不同的服務(wù)水平,最快的服務(wù)器提供的響應(yīng)時間比最慢的快7 倍。這可能是舊的系統(tǒng)需要升級或者是負載均衡的問題。性能圖表能夠通過對比激活會話數(shù)目,流量大小,響應(yīng)次數(shù)來評估負載均衡的效率。不同的工具采用不同的負載均衡標(biāo)準(zhǔn)。性能圖表通過提供系統(tǒng)之間的流量矩陣表,對內(nèi)部服務(wù)器簇優(yōu)化也有幫助。


圖14、服務(wù)器無響應(yīng)——被決絕的會話



圖14、服務(wù)器無響應(yīng)——負載平衡


結(jié)論

  服務(wù)水平管理(SLM)幫助您控制服務(wù)水平(始終如一的滿足客戶的需要),持續(xù)的改善運營效率。既然IT 客戶是最終用戶,而且IT 部門的工作推動這些用戶操作業(yè)務(wù),SLM 應(yīng)該著眼于做為一種確保IT 與商業(yè)成功結(jié)盟的方法。

  在采用一個SLM 計劃的時候,有2 個成功的條件;必須仔細定義技術(shù)目標(biāo)和團隊必須學(xué)習(xí)運行的策略。當(dāng)定義技術(shù)目標(biāo)的時候,監(jiān)測的服務(wù),測量的度量參數(shù),測量的方法,部署SLA 可用的工具,必須被重視。SLM 工具的選擇應(yīng)當(dāng)鼓勵前瞻性的管理,通過提供4 個關(guān)鍵領(lǐng)域的功能:多級的報告,早期檢測,快速決定,機會發(fā)現(xiàn)。把團隊工作從救火模式轉(zhuǎn)變成戰(zhàn)略規(guī)劃模式,為了成功地執(zhí)行該技術(shù)目標(biāo),要求把SLM 集成到日常工作。

  采用SLM 讓IT 專業(yè)人員能夠連續(xù)地改善他們提供的服務(wù)。通過分析過去的性能和一致性,IT 人員可以確定并改善那些將會對服務(wù)水平有最大的影響的區(qū)域。IT 資源和業(yè)務(wù)性能主動結(jié)盟的的結(jié)果,能給任何企業(yè)帶來高附加值的益處。
作者:美國福祿克網(wǎng)絡(luò)公司   來源:C114(CHINA通信網(wǎng))

微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

      最新招聘信息