摘要
成功的服務水平管理(SLM)需要一種前瞻性的手段,但是現(xiàn)今大多數(shù)的管理工具主要工作在激勵響應的模式。在這篇文檔里,我們描述了通過合適的工具,讓您的團隊從像消防員一樣去解決網(wǎng)絡故障,轉變成高級網(wǎng)絡規(guī)劃人士。
做為把IT 資源與商業(yè)目標結盟的一個方法,SLM 正受到普遍的關注。服務水平管理(SLM)幫助您控制服務水平(始終如一的滿足客戶的需要),持續(xù)的改善運營效率。它提供了一種方法來衡量IT 收益率,這比衡量IT 總資產要好。
本白皮書討論了實施一個成功的SLM 需要考慮的事情和決定,詳細設計了如何用服務水平目標(SLO)來定義服務水平認證(SLA),完成商業(yè)目標。本白皮書展現(xiàn)了SLA 的常見的陷阱以及如何避免他們;探究選擇和衡量SLO 的細節(jié);采用已有的工具前瞻性的工作。
合適的SLO 選擇是SLA 成功的關鍵。本白皮書描述了如何選擇測量參數(shù)進行測試,判定重點是在客戶,服務器或者網(wǎng)絡。它解釋了選擇統(tǒng)計值,平均值或者百分比對管理策略的實際影響,以及如何選擇確定一致性的標準。同時對不同商業(yè)解決方案進行評估,突出不同方案的長處、短處和潛在的商業(yè)影響。
通過服務水平管理(SLM)基線,認識到如何在您的企業(yè)成功執(zhí)行正確的SLA。
介紹
傳統(tǒng)的服務水平管理(SLM)基本只是單獨依靠有效性進行監(jiān)測。服務(網(wǎng)絡、服務器或者應用)必須99.999%的時間“UP”。這個度量標準容易理解,看起來好像為最終用戶提供了真正的價值。然而,該度量標準不能滿足關鍵的SLM 目標、客戶的需求、并進行持續(xù)的改進。它不能滿足客戶的需求,因為服務在“UP”狀態(tài)的同時,很可能只有很低的、幾乎不能使用的性能。它不能推動持續(xù)地改進運營效率;更確切地說,它更多地關注于很少發(fā)生的事件。
為了功效最大化,SLM 除了可用性之外,必須牢固地扎根于性能。它必須把最終用戶的體驗擱在心上,而不僅僅是架構的狀態(tài)。而且,它必須這么做。幸運的是,SLM 工具最終朝著能夠滿足這些需求的方向發(fā)展。今天的SLM 工具將積極地鼓勵網(wǎng)絡管理從被動方式轉變?yōu)榍罢靶苑绞,通過提供4 個關鍵關鍵領域的功能:多級報告,早期檢測,快速定位,以及機會發(fā)現(xiàn)。除了這些之外,它必須是方便配置,方便管理,方便使用的架構。
SLM 為了高效必須仔細定義服務水平目標(SLO)。有3 個關鍵變量應該被測量:最終用戶響應時間,服務器響應時間,和網(wǎng)絡時延。但是如何測量這3 個變量,主動的還是被動的,是成功了還是沒有達到期望的結果。SLO 可以基于時間平均數(shù),時間平均數(shù)百分比,或者基于事件百分比。很多市場上的工具,采用時間平均為基礎的SLO 進行跟蹤,然而,這種方法有一個缺陷,對個人用戶來說,大多數(shù)用戶的平均值,可能并不必要;谑录俜直雀櫡绞降腟LO,技術門檻較高,它精確地捕捉了用戶的體驗。然而,現(xiàn)在運行的、穿過一個企業(yè)網(wǎng)的解決方案,很少可以有效地實現(xiàn)這個方法。
SLO 門限的配置,應該根據(jù)用戶的需求來定。這些需求根據(jù)應用和網(wǎng)絡接入方式而變化。通常,2 個門限應該被指定。第一門限,應該是反映用戶感到不滿意的位置。第二門限,應該是系統(tǒng)性能較差,導致的重大的商業(yè)損失的位置。如果SLO支持百分比門限,應該隨著時間調整他們,從而連續(xù)地改善運營、控制時延變化。
通過SLM 前瞻性管理
要達到SLM 目標必須改變慣性思維。大多數(shù)IT 團隊現(xiàn)在都運行在一種被動模式。他們大多數(shù)的時間都用在進行危機處理,盡力去抑制和解決故障。通過SLM 管理IT 資源,IT 部門可以預見問題、快速地解決,讓IT 團隊從被動做出反映,轉變?yōu)橹鲃拥摹⑶罢暗膱F隊。這個行為模式上的變化,無疑需要部門培訓,但是,合適的工具可以提供一個臨界的跳躍,來幫助人們用一種新的觀點評估網(wǎng)絡性能。
SLM 工具不只是監(jiān)測和分析的手段。它確保了必要資源的提供,與商業(yè)用戶的需求結合起來。SLM 工具的第一需求是保證策略行動的自由時間。一些工具部署、管理是如此的麻煩,使用他們并不能重大的節(jié)約IT 團隊的時間。SLM 工具的選擇必須是容易使用和著眼于真正有效的功能。
SLM 工具的易用性代表了該工具被部署管理和使用的成功程度。這是由SLM 的架構、將要部署該工具的環(huán)境細節(jié)決定的。一個在全球性企業(yè)管理起來很麻煩的工具,可能對一個稍小的企業(yè)就很合適。一個對mesh 網(wǎng)絡的離譜的工具,可能對一個hub-and-spoke 環(huán)境是合理的價格。一個需要在不同的IT 團隊 (舉例來說,管理桌面支持的或者廣域網(wǎng)應用的團隊) 之間不斷協(xié)調的工具,可能是一個強烈壓力來源,也可能是一個機會⋯⋯,但是它經常是壓力和無效率的來源。
一個SLM 工具必須鼓勵從被動性管理轉變到前瞻性管理。達到這一點通過提供4 個關鍵領域的功能:多等級報告,早期檢測,快速定位,機會發(fā)現(xiàn)。這些領域將在這篇文檔的后面討論。
價值變量
部署一個SLA 最初的決定之一包括選擇變量。SLA 將采用什么變量做測量參數(shù)?最終用戶的期望和IT 團隊所能提供的指標經常是一個沖突。最終用戶需要有直觀意義的測量參數(shù),典型的就是最終用戶響應時間。IT 團隊需要一個他們能夠管理的測量參數(shù)(舉例來說,如果他們不控制服務器簇,他們不愿意測量服務器問題)。一個好的折衷是多選一些參數(shù),就不會選錯了;檢測有共同理解的參數(shù),就減少了出錯的責任。
最終用戶性能
不管現(xiàn)有的SLA 是否測試最終用戶應用的響應時間,都應該測試該參數(shù)。這個變量表明最終用戶真正的感覺,推動IT團隊和最終用戶之間的交流。表達最終用戶體驗最常用的方法是通過測量處理事務次數(shù)及其組成成分。
測量最終用戶體驗最終的決定是測量什么事務和如何測量他們。應該測量每一種不同的事務處理還是僅僅選擇一些?以前的模型要求可量測性的集成,結果是有點丟失了可視性。后來是選擇很少的通用的、代表性的、重要的事務。2 種方法的結合通?梢援a生滿意的結果。換句話說,2 種方法的需求并不是排斥的。
實際用戶應該進行被動監(jiān)測,還是采用綜合性的探針主動監(jiān)測?以前要求絕對達到SLM 目標。后來要求提供對故障解決非常有用的確定基線。最好的途徑是結合被動監(jiān)測和少量綜合探針;采用這個方式,2 種途徑的好處都可以有效地實現(xiàn)。
服務器性能
SLA 服務器響應時間無論如何也應該被監(jiān)測。服務器響應時間對快速定位是否因為服務器的原因引起了最終用戶響應時間惡化非常有用。這個度量標準也可以用來跟蹤數(shù)據(jù)中心的服務水平質量(QOS)。服務器響應時間也是網(wǎng)絡優(yōu)化和規(guī)劃的基礎。
一些重要的問題與如何測量服務器響應時間有關。如果綜合探針被重復性的用來處理同樣的事務,就可能在客戶端或者服務器端緩存結果。緩存的作用影響了測試結果,它沒有代表實際的用戶體驗。如果服務器緩存信息,它還不能選擇清除。如果事務處理是隨機的,那么綜合探針就不可避免的失去了作用。緩存的影響,致使終合探針給服務器響應時間的測量帶來誤差。針對所有事務和所有系統(tǒng)用戶,被動的監(jiān)測服務器性能,能夠消除這個問題,并且還能在監(jiān)測一段時間以后,提供一個有用的性能基線。
網(wǎng)絡性能
網(wǎng)絡時延是另一個必須監(jiān)測的SLA 衡量標準。與服務器性能相同,網(wǎng)絡性能對快速判定是否因為網(wǎng)絡問題導致最終用戶響應時間惡化,是非常有用的。網(wǎng)絡性能度量標準-比如環(huán)回時間(RTT)-可以用來衡量從網(wǎng)絡服務提供商獲得的服務水平。對網(wǎng)絡時延連續(xù)性的監(jiān)測,對網(wǎng)絡優(yōu)化和規(guī)劃也是非;镜摹
有幾種通用的方法測量網(wǎng)絡時延。主動的方法包括執(zhí)行ICMP ping 或者TCP session 連接。被動的方法包括測量TCPsession 連接或者更多終合的應用數(shù)據(jù)包。每一種方法,網(wǎng)絡時延測量基于觀察終合的應用數(shù)據(jù)包,提供最精確的性能表現(xiàn)。理解網(wǎng)絡時延的組成是非常重要的,對識別每一種方法的優(yōu)點和缺陷非常重要。網(wǎng)絡延時包含5 個組成:傳輸、排隊、傳播、處理和協(xié)議時延,如下所述。
字節(jié)封包傳送或者傳輸時延是把所有比特打成包在傳輸媒介之上的時間要求。它是依賴于包尺寸和鏈路接入速率。一個64 字節(jié)的包在56Kbps 鏈路上有18.3 毫秒的環(huán)回時延。256Kbps 鏈路有4 毫秒,1.5Mbps 鏈路有7 毫秒。一個1500 字節(jié)的包相應的分別有428.6 毫秒,93.8 毫秒,16 毫秒的連載長篇的時延。TCP session 連接主要是64 字節(jié)包。結果導致,測試其他的應用時延的時候,基于TCP session 測量經驗,將通常低估網(wǎng)絡時延。ICMP ping 可以配置為各種尺寸的包,但是包尺寸在來回2 個方向是相同的。我們依靠經驗從用ICMP 精確捕獲的傳輸時延,大多數(shù)的應用并沒有這種對稱性。注意,默認的ICMP 包尺寸也是64 字節(jié)。
排隊延遲是在包在緩存里等待自己的發(fā)送開始所要花費的時間。它依賴于包先前用到的包傳輸時延,緩存大小,擁塞程度,和路由器、交換機的排隊機制的配置。擁塞能夠以毫秒級別變化,而一個TCP session 可以按秒、小時、甚至按天保持。因而,依靠TCP session 連接的排隊時延明顯的不同于主要應用。同樣的是任何預定的探針例如ICMP,排隊時延與應用的經驗有很少的類同之處,甚至早60 秒。另外,路由器或者交換機可以把ICMP 包放進優(yōu)先級(不是好一些就是差一些)隊列處理。在擁塞時期,在應用包等待時,ICMP 包首先被丟棄-因此,時延更長的話ICMP 就測不到了。ICMP 包可以優(yōu)先的移至隊列頭,從而經歷了短的時延;ICMP 也可以選擇性的移至隊列的后面,從而經歷了長的時延(如果不被丟棄的話)。
傳播或者距離時延是沿著順著物理路徑傳輸所花的時間。它僅僅依靠距離和媒體類型。如果TCP session 連接和ICMP包做為主要的應用通過同樣的物理路徑傳送,那么傳播時延是一樣的。然而,它并不保證同樣的傳送路徑。
處理時延是路由器或者交換機準備傳遞包所花的時延。它依賴于很多因素,但通常是無關緊要的。注意TCP session連接可能比流里面其他的包需要更多的處理,ICMP 需要更少的處理。
協(xié)議時延是基于協(xié)議基礎的包等待時間。舉例來說,在一個共享媒體,包必須等待它的輪訓才可獲得接入。這類時延影響根據(jù)協(xié)議的不同,變化很大。
總的來說,用ICMP ping 包測量網(wǎng)絡時延只是展現(xiàn)了對網(wǎng)絡的簡單印象。基于TCP session 連接的網(wǎng)絡時延測量,僅僅展現(xiàn)了64 字節(jié)大小的包在會話建立的時候(秒,小時,甚至幾天前)經歷的延遲。采用被動的觀察通常的應用包的方法,是最有效的測量網(wǎng)絡時延的手段,它放映了用戶實際的感覺。
服務可用性
做為SLM 策略的一部分,服務可用性應該明確地被監(jiān)測。傳統(tǒng)的方法進行故障管理要求網(wǎng)絡跟蹤、測試服務器設備可用性。這能夠通過激活代理軟件,或者用探針周期性的測試所選事務實現(xiàn)。如果探針按15 分鐘周期運行,從開始以后,能夠檢測到一個持續(xù)的大概7.5 分鐘的運轉中斷。然而,間歇性的簡短中斷將不能被檢測,也不能根據(jù)SLO 跟蹤。更頻繁的檢測應該可以檢測到更短的運轉中斷,但是會給系統(tǒng)帶來負載開銷的增加。
難以捉摸的統(tǒng)計
無論是否意識到,當執(zhí)行SLM 的時候,下一個重要的決定是統(tǒng)計。SLA 應該基于時間平均還是事務百分比?一個基于時間平均的SLA 應該要求,舉例來說,平均最終用戶響應時間應該小于3 秒。一個基于百分比的SLA 也應該要求,舉例來說,95%的事務處理時間應該小于3 秒。
選擇基于時間平均的SLA 的優(yōu)點是幾乎每個SLM 廠家都支持,在工具選擇的時候有很大的自由度。不幸的是,時間平均不提供用戶正在感受到的體驗。舉例來說,假設有9 個用戶每人觀測到有0.5 秒的響應時間,而第10 個用戶收到90 秒的響應時間。那么平均響應時間的報告是9.5 秒-這與任何一個用戶的實際感受都有很大的不同。因為這種不對稱的敏感性,是非常難以達到平均的。如果第10 個用戶收到一個180 秒的響應時間(超過90 秒)而其他用戶還是保持0.5 秒,平均值接近是剛才的2 倍-雖然只有1 個用戶感到性能惡化。
一些廠家報告了一種能夠減少這種不對稱敏感性的均衡的平均值;他們丟棄了超過預設門限的測量結果。在前面的例子,針對0.5 秒的均衡平均值,預設門限將會是2 秒。這種方法的危險是很可能掩飾了非常真實的網(wǎng)絡問題。如果問題繼續(xù)發(fā)展,有7 個用戶的響應時間變成了2.5 秒,而報告的均衡平均值將會仍然是0.5 秒-即使80%的用戶因為性能惡化已經感到難受了。在現(xiàn)有大多數(shù)環(huán)境的狀態(tài)都不相同的情況下,選擇一個合適的門限幾乎是不可能的。確實發(fā)生的是,因為這種均衡,性能最差的站點曾經被報告為性能最好的站點。
基于事件百分比的SLA 可能不會受到這種不對稱性影響,可以直接與客戶體驗相關。如果95%的事務的響應時間小于3秒,剩下5%的響應時間值就不具有重大的意義;诰馄骄档腟LA 忽略了所有超過預設門限的響應時間。如果所有的響應時間都超過了門限,那就沒有度量值了;谑录俜直鹊腟LA 忽略了預設門限(本例中的5%)的響應時間。
基于事件百分比的SLA 更優(yōu)于基于時間平均的SLA;然而,SLM 廠家的選擇就更受限制了。事件百分比相對平均值,在監(jiān)測技術上更具挑戰(zhàn)性。因此很少有廠家支持這個選項。一些廠家選擇了一個混合的方案報告平均百分比(好過比事件百分比簡單)。舉例來說,基于這種混合方式的SLA 將會要求,如果月平均值為5 分鐘,那么95%的響應時間必須少于5 秒?傊,SLA 可以基于時間平均,基于時間平均百分比,或者基于事件百分比。基于時間平均的SLA 伴隨有不對稱問題;結果是可能不能體現(xiàn)客戶的真正體驗;谑录俜直鹊腟LA 更高級一些,但是沒有廣泛的執(zhí)行。
定義細節(jié)
另一個重要的決定是確定實際目標。每一個變量有多少目標?用什么期限來確定一致性?什么門限和百分比是合適的?這些細節(jié)定義應該牢固基于用戶期望來精確測量用戶體驗。
有2 個有趣的門限;微小的和痛苦的。小于“微小的門限”的時延不能引起用戶注意。時延很小,屬于用戶的期望范圍內的,不需要去暗示,他們不會產生任何煩惱。超過“痛苦門限”的時延導致用戶放棄。這種時延在丟失商業(yè)機會或者員工生產力方面是非常昂貴的。在2 個門限之間的時延,典型地是應用不暢。
這2 個門限并不知名,但是通過實驗(依靠合作的或者不知情的用戶,依據(jù)某種策略)可以發(fā)現(xiàn)。一些通用的值經常被引用,瀏覽頁面的2 個門限值是3 秒和8 秒。然而,門限經常依賴網(wǎng)絡接入方式和自身的應用。舉例來說,用戶通過衛(wèi)星接入娛樂網(wǎng)站入口相對通過陸地E3 電路接入技術熱線,能夠容許有更大的時延。針對每一種應用和接入組,將會定義一個分離的SLA。
門限應該基于用戶需求定義。如果SLA 支持百分比,百分比應該隨著運營質量改善而調整。用戶傾向于對時延變化更敏感,而不是孤立的值。增長的百分比有效地控制了延遲變化。做為一個例子,假定SLA 開始規(guī)定95%事件響應時間必須小于3 秒而且98%必須小于8 秒。目標應該是把百分比增加到,比方說,經過一段時間調整,分別增加到96%和99%。降低3 秒的門限對業(yè)務可能沒有什么影響,既然3 秒已經是一個可以接受的值。
針對特別用戶,門限維護操作窗口可能對SLA 特別合適。門限應該是在定義階段就確定好,好過SLA 不可達后再定義。注意,現(xiàn)在很少有廠家支持該特征。如果所選的廠家不支持,那么定義的百分比應該按補償性方式向下調整。
總而言之,SLA 中使用的門限應該基于用戶的需求。這些需求根據(jù)應用和網(wǎng)絡接入方式的不同而不同?偟膩碚f,2 個門限應該被詳細說明的。低于最低門限低的時延對用戶沒有影響;高于最高門限的時延會有明顯的業(yè)務開銷。如果SLA 支持百分比,應該在時間上通過調整百分比,來推動運營的連續(xù)改善和控制時延變化。
選擇合適的SLM 解決方案
向前面提到的,SLM 必須積極的鼓勵從被動管理到前攝管理的轉變。自動化SLM 解決方案必須提供4 個領域的功能:多級報告,早期檢測,快速決定,和機會發(fā)現(xiàn)。這些領域在下面的章節(jié)將會詳細討論。
多級報告
一些廠家宣稱他們的工具支持SLM,確把解釋和實現(xiàn)留給用戶。當然,對數(shù)據(jù)包的捕獲支持SLM,但在有限的時間并不是總實用的。如果僅僅提供高層“管理”,但是沒有提供采取合適行動的必須細節(jié),沒有一個工具是實用的。SLM 工具應該提供從高層狀態(tài)到技術水平細節(jié)的方便導航,越方便越好。簡短的說,應該提供多級報告。高級別總結信息,對沒有技術背景的用戶最重要,同時,瞄準于快速達到相關技術細節(jié)的導航也很重要。
最高級SLA 報告
最高級的SLA 報告(見圖1)為商業(yè)用戶提供了一個不同的SLA 一致性的概覽。如果要求更多的細節(jié),點擊任何應用的名字,進入一個說明該應用的更詳細的一致性界面。
圖2 展示了peoplesoft 應用的一致性測量標準。這個SLA 要求95%的peoplesoft 事件響應時間小于2 秒(標準1),99%的響應時間小于4 秒(標準2)。Peoplesoft 服務與SLA 一致,因為99%的事件小于4 秒,99.8%的事件小于2 秒。
圖3 表示了更適合IT 管理或者技術用戶的一致性視圖。該視圖提供報告和違背計數(shù),也提供更多的修改選項來改變報告包含的信息。最高級的報告提供非常有用的故障點定位和違背,但是不提供足夠的信息來指導任何矯正行為。
中級SLA 報告
中級SLA 報告提供不同時間的、空間的、邏輯的SLA 一致性總結視圖。舉例來說,圖4 展示基于時間的SLA 一致性,周期性地展示需要更深入地研究的故障間隔時間。
能選擇用戶區(qū)的視圖應該也被提供,判定不適當數(shù)量的違背,是一個單獨的服務器或者特別的組用戶所引起的。舉例來說,如果SLA 違背是一部分客戶站點引起的,在圖5 中的客戶區(qū)將會很明顯。這些視圖IT 團隊理解如何把應用聯(lián)系到一致性的基本幫助。
低級報告
低級報告對快速解決出現(xiàn)的性能問題是很基本的,同時也幫助IT 資源的有效分配。他們提供理解錯誤范圍和原因所要求的必要的細節(jié),讓IT 員工采取相關行動。這些低級報告包括自動調查的結果(圖6),同時包括性能圖表信息和統(tǒng)計(圖7)。
圖6、低級調查報告
智能基線報告
除了根據(jù)一個靜態(tài)的SLA 門限跟蹤性能,理解現(xiàn)在的性能與過去的性能的比較也是非常重要的。用戶的期望是根據(jù)他們以前的應用-你可能很好的在你SLA 范圍里面,但是仍然讓客戶感到不舒服,因為響應時間比他們以前的慢了。該類型的報告能夠產生,提供一條計算過的應用性能的基線。這條基線應該重視最近和歷史系統(tǒng)性能。圖8 展示了一張高級視圖,每一種應用性能與其歷史基線的對比。圖9 展示了一張中級視圖,citrix 過去8 小時的應用性能與以前性能的對比。
早期檢測
每個人都很熟悉在企業(yè)網(wǎng)里發(fā)現(xiàn)問題和危險的最普遍方法:電話響了或者收到緊急的郵件。大多數(shù)IT 團隊沒有時間專注于每一次單獨跑進他們辦公室的的不滿。除非問題發(fā)現(xiàn)的早,團隊可以花更多的時間解決問題,否則沒有時間去滿足商業(yè)客戶的長期需求。
SLM 工具必須有自動發(fā)現(xiàn)問題釀成大錯前初期征兆的能力。這種自動查找機制,能夠把報告區(qū)分優(yōu)先級,是前瞻操作的臨界應用。當早期的工具依靠預先配置的靜態(tài)門限檢測問題的時候,新一代的工具采用自學習機制。新的工具在對日常的每天、每周、每月周期性捕捉的同時,學習應用、服務器和客戶區(qū)“典型的“行為。他們知道一個月里最后一個星期五通常比其他時間慢;他們不會產生一個報警,除非相對學習到的這個時間的標準,性能很差。
智能化基線自動發(fā)現(xiàn)發(fā)展中的問題,在潛在問題被用戶感知之前給IT 團隊發(fā)出警告。這種早期發(fā)現(xiàn)機制減少了平均修復時間(MTTR),提高生產力,增強團隊的聲譽。新的工具可以穿過企業(yè)查找異常、低效率、和其他要改善的地方。他們提供對收到數(shù)據(jù)的24X7 的性能監(jiān)測和分析。
圖10 提供了一個交替的最高級性能視圖-在過去2 個星期檢測到的臨界性能事件詳圖。
識別可用性和性能問題一樣都是很基本的。積極監(jiān)測對這個功能是特別有用的,但是他們有幾個缺陷。按照標準的執(zhí)行方式,積極監(jiān)測周期性地測試可用性(和性能)。他們被計劃每5 分鐘、或者15 分鐘、或者30 分鐘運行一次。如果探針被計劃每15 分鐘運行一次,出現(xiàn)斷線要平均7.5 分鐘后才檢測到(但也可能是15 分鐘后才檢測到)。輪詢時間越短,探針能夠越快的檢測問題-但是時間縮短給網(wǎng)絡和服務器增加了更大的壓力。因為這個壓力原因,積極檢測只能從選擇的區(qū)域選擇事務測試。這種被迫的選擇很普遍,以至于探針不能檢測到他們希望檢測到的情況。
一個更好的方法是把觸發(fā)式的主動調查與被動性監(jiān)測結合起來。僅僅在監(jiān)測到沒有流量的不正常情況,網(wǎng)絡或者服務器才會激活探針-在那個時候,壓力很小,只要不是真正的斷線了。使用這種方法,網(wǎng)絡中斷能夠很快檢測到,而不需要給網(wǎng)絡或者服務器增加壓力。
不管實際執(zhí)行情況怎么樣,早期檢測和可用性問題都是SLM 的基本組成部分。
快速定位
SLM 工具的選擇不能僅僅局限于檢測發(fā)現(xiàn)問題,也必須輔助問題的快速定位。多級報告當然很好的推動了這一點,特別是把“點擊即可瀏覽詳細信息”的導航接口集成進來的時候。以表格為基礎的客戶報告非常的靈活,但是他們提供痛苦和麻煩的接口。支持概覽好過支持麻煩的表格。
自動調查能夠明顯的節(jié)約時間,而且需要很少的人工配置。當一個開發(fā)服務器檢測到有問題的時候,增加的信息例如CPU 利用率、存儲器使用、頂級進程都結合在一塊了-在那時候,問題出現(xiàn)了。當一個開發(fā)網(wǎng)絡確定有問題的時候,應該執(zhí)行路由跟蹤或者收集附加的MIB 統(tǒng)計。這種觸發(fā)式的調查能夠節(jié)省很多診斷資料的收集。
連續(xù)性改進
SLM 的一個主要目標是連續(xù)性改進。早期檢測和快速定位問題確實改進了運營效率。然而這些行為實際上仍然是被動的。服務一定要不可接受(接近SLA 門限)或者開始惡化(被智能基線檢測到)才會觸發(fā)行動。如果服務在一個很穩(wěn)定確效率低下的狀態(tài),就不會被注意到。SLM 工具應該提供一種機制快速發(fā)現(xiàn)這種低率,而且確定改進機會。
這種特征的一個例子,在圖11-15 的報告顯示。這些性能圖提供了更高水平的視圖,這些視圖對改善性能是非常有用的。這些圖選擇一系列選項,包括應用、客戶區(qū)域、服務器、感興趣的測量標準、排序次序、和時間范圍。
接下來的3 個段落提供了如何有效地應用這些性能圖表的例子!皯脽o效和機會”展示了性能圖表在一個多級應用里能夠如何展示交互作用!熬W(wǎng)絡無效和機會”展示了性能圖表如何提供企業(yè)時延組成圖表,流量矩陣,方便用戶做容量規(guī)劃、問題的優(yōu)先級別劃分!胺⻊掌鳠o效和機會”描敘了性能圖表如何能夠識別問題服務器和無效的負載均衡。
應用無效和機會
圖11“根據(jù)應用的處理時間”描述了一個多級部署的、全球性的ERP(企業(yè)資源計劃)應用性能圖表。Superagent 監(jiān)測該應用的每一級:web 圖形用戶界面(ERP 系統(tǒng))、用戶認證(LDAP 目錄)、文檔交換(netbios/TCP)、和后臺數(shù)據(jù)庫(oracle9i DB)。通常,圖形用戶界面有最大的平均處理時間(1.51 秒),而后臺數(shù)據(jù)庫有最小的平均處理時間(0.04 秒);用戶認證有0.53 秒的時延。這個性能圖表提供了每一種應用等級的快速概覽,和它們之間是否是否有相互影響。如果圖形用戶界面和數(shù)據(jù)庫時延都很高的話,那么好像一個應用受到了另一個應用的影響。在這個案例里,用戶應該點擊一個應用名,深入到低一級的詳細報告,查看2 個應用之間的相關性,定位問題來源。
網(wǎng)絡無效和時機
性能圖表能用來產生網(wǎng)絡時延和丟包圖表。圖12 展示了“客戶區(qū)網(wǎng)絡環(huán)回時延(RTT)”,給出了通過穿過完整企業(yè)網(wǎng)的網(wǎng)絡性能快速概覽。所有站點都被包括了,并且根據(jù)描敘做了排列,用來提供網(wǎng)絡熱點的視覺辨認。舉例來說,VPN 用戶有相比其他人差的性能,而所有在企業(yè)總部的用戶享受著快速的性能。
圖13 的“客戶區(qū)字節(jié)丟失百分比”性能圖表展示了丟包百分比最多的15 個用戶區(qū)(通過圖表排列比通過描述或者地址好的多)。高丟失率可能是錯誤或者沖突引起的;在其他案例,它表明了明顯的失效和改進的時機。因為網(wǎng)絡的狀況,在匹茲堡和El Paso 的用戶的生產力受到嚴重的限制。
服務器無效和時機
通過服務器簇成員的對比,性能圖表能用來確定問題服務器。圖14 的“服務器拒絕會話”性能圖表展示了ERP 服務器1 過載或者故障。圖15 的“服務器響應時間”性能圖表用圖說明了WEB 服務器簇在提供不同的服務水平,最快的服務器提供的響應時間比最慢的快7 倍。這可能是舊的系統(tǒng)需要升級或者是負載均衡的問題。性能圖表能夠通過對比激活會話數(shù)目,流量大小,響應次數(shù)來評估負載均衡的效率。不同的工具采用不同的負載均衡標準。性能圖表通過提供系統(tǒng)之間的流量矩陣表,對內部服務器簇優(yōu)化也有幫助。
結論
服務水平管理(SLM)幫助您控制服務水平(始終如一的滿足客戶的需要),持續(xù)的改善運營效率。既然IT 客戶是最終用戶,而且IT 部門的工作推動這些用戶操作業(yè)務,SLM 應該著眼于做為一種確保IT 與商業(yè)成功結盟的方法。
在采用一個SLM 計劃的時候,有2 個成功的條件;必須仔細定義技術目標和團隊必須學習運行的策略。當定義技術目標的時候,監(jiān)測的服務,測量的度量參數(shù),測量的方法,部署SLA 可用的工具,必須被重視。SLM 工具的選擇應當鼓勵前瞻性的管理,通過提供4 個關鍵領域的功能:多級的報告,早期檢測,快速決定,機會發(fā)現(xiàn)。把團隊工作從救火模式轉變成戰(zhàn)略規(guī)劃模式,為了成功地執(zhí)行該技術目標,要求把SLM 集成到日常工作。
采用SLM 讓IT 專業(yè)人員能夠連續(xù)地改善他們提供的服務。通過分析過去的性能和一致性,IT 人員可以確定并改善那些將會對服務水平有最大的影響的區(qū)域。IT 資源和業(yè)務性能主動結盟的的結果,能給任何企業(yè)帶來高附加值的益處。