在一個(gè)企業(yè)里,大部分的應(yīng)用問(wèn)題都是由用戶提出的,這是因?yàn)閷?duì)于應(yīng)用質(zhì)量一直都沒(méi)有一個(gè)好方法來(lái)評(píng)估,光是對(duì)流量監(jiān)測(cè)已經(jīng)不能判別應(yīng)用運(yùn)行時(shí)的性能。 應(yīng)用監(jiān)測(cè)是一個(gè)比較新的網(wǎng)絡(luò)性能監(jiān)測(cè)手段,他通過(guò)長(zhǎng)期監(jiān)測(cè),組成智能基線,方便分割應(yīng)用問(wèn)題的源頭。以下是一個(gè)通過(guò)應(yīng)用分析,對(duì)用戶投訴ERP系統(tǒng)出現(xiàn)問(wèn)題時(shí),診斷時(shí)的流程實(shí)例:
第一:?jiǎn)栴}是什么?
一個(gè)ERP 系統(tǒng)可以由多層的服務(wù)器來(lái)支持。在出現(xiàn)問(wèn)題時(shí),需要知道問(wèn)題是在哪一層。應(yīng)用性能監(jiān)測(cè)儀如福祿克網(wǎng)絡(luò)公司的SuperAgent 可以可以同時(shí)監(jiān)測(cè)多層應(yīng)用的性能。在圖一上,可以看到ERP 的問(wèn)題,只發(fā)生在ERP System 應(yīng)用上(用戶界面),與其它應(yīng)用無(wú)關(guān)。
圖一、應(yīng)用與響應(yīng)時(shí)間的關(guān)系圖
第二:確認(rèn)是網(wǎng)絡(luò)、服務(wù)器還是應(yīng)用出毛病呢?
這么一個(gè)簡(jiǎn)單的問(wèn)題,卻可能由于各個(gè)維護(hù)小組相互指責(zé),引起浪費(fèi)時(shí)間。SuperAgent 的響應(yīng)時(shí)間構(gòu)成圖,可以清楚的提供實(shí)際的證據(jù),證明是哪一方的問(wèn)題。在圖二,綠色代表網(wǎng)絡(luò)往返時(shí)間(Netwk RTT),深藍(lán)色代表平均的重發(fā)報(bào)時(shí)間(Retran),金色代表數(shù)據(jù)傳輸或網(wǎng)頁(yè)下載時(shí)間(Data Xfer), 紅色是服務(wù)器響應(yīng)時(shí)間(Srv Resp)和淺藍(lán)色的TCP 連接建立時(shí)間(Conn Time)。 在圖上可以看到在出事時(shí)9:10 左右,總響應(yīng)時(shí)間是4 秒種,服務(wù)器的響應(yīng)時(shí)間特長(zhǎng)是主要原因。我們可以深入分析每一個(gè)響應(yīng)時(shí)間的部件。
在圖三,可以看到在過(guò)去8 小時(shí),服務(wù)器響應(yīng)時(shí)間的中間值(50% percentile)是0.12 秒,平均值是0.24 秒。
但出毛病時(shí)響應(yīng)時(shí)間長(zhǎng)達(dá)3 秒,增加了30 倍。要留意的是SuperAgent 和大部分長(zhǎng)期監(jiān)測(cè)工具的報(bào)告都是平均值(5 分鐘),所以可能只是有小量的長(zhǎng)響應(yīng)時(shí)間,影響這平均值結(jié)果,要找出根源,需要進(jìn)一步確認(rèn)。
圖二、響應(yīng)時(shí)間組成圖
圖三、服務(wù)器響應(yīng)時(shí)間趨勢(shì)圖
第三:?jiǎn)栴}有意義嗎(有多小有問(wèn)題的情況)
究竟有很多的應(yīng)用對(duì)話受影響呢?在圖三上的灰色線代表SuperAgent 在計(jì)算平均值時(shí),用上的測(cè)試個(gè)數(shù)數(shù)量。通過(guò)這灰色線,可以明確的顯示問(wèn)題是否由于應(yīng)用率改變,影響響應(yīng)時(shí)間的統(tǒng)計(jì)結(jié)果。如果測(cè)試個(gè)數(shù)數(shù)量在出問(wèn)題前或同時(shí)突然增加,很有可能是網(wǎng)絡(luò)資源甬塞或沖突。 如果測(cè)試個(gè)數(shù)數(shù)量大量減低,應(yīng)用的衰減可能改變了正常的應(yīng)用模式,也要可能只一些小的響應(yīng)時(shí)間衰退,例如在3:00am,只有一個(gè)用戶,他的對(duì)話比較慢,是否值得探討呢?為了了解正常的應(yīng)用模式,SuperAgent 提供4 個(gè)不同的分析時(shí)間模板的趨勢(shì)圖:8 小時(shí),一天,一周和一個(gè)月。這樣讓您很容易看到出問(wèn)題時(shí)比正常的情況是超過(guò)還是低于,而且是否會(huì)定期發(fā)生。在我們的案例上,圖2 上顯示問(wèn)題發(fā)生時(shí),有一定數(shù)量(每5 分鐘超過(guò)1000個(gè)測(cè)試個(gè)數(shù)),而且數(shù)量沒(méi)有大的改變。
第四:?jiǎn)栴}嚴(yán)重嗎
有多小應(yīng)用對(duì)話受影響呢?SuperAgent 提供統(tǒng)計(jì)分析,可以提供每一個(gè)影響響應(yīng)時(shí)間部分的90 百分點(diǎn),75 百分點(diǎn)和50 百分點(diǎn)情況。如果在90 個(gè)百分點(diǎn)沒(méi)有響應(yīng)時(shí)間的增加,代表只有不超過(guò)10%的對(duì)話受影響。如果75 百分點(diǎn)又突然增加,但50 百分點(diǎn)卻沒(méi)有,哪是25%-50%的對(duì)話受影響。在圖四上,我們看到ERP 的50 百分點(diǎn)圖。服務(wù)器響應(yīng)時(shí)間(紅色曲線)有明顯的增高,這代表超過(guò)50%的對(duì)話的性能受影響 – 一個(gè)嚴(yán)重、需要立刻處理的問(wèn)題。
圖四、響應(yīng)時(shí)間元件統(tǒng)計(jì)圖
第五:?jiǎn)栴}的范圍
了解影響范圍有多廣,只有一個(gè)服務(wù)器受影響?還是影響多個(gè)服務(wù)器? SuperAgent 的性能圖可以提供很有效的分析。在圖五上,可以方便的看到每一個(gè)服務(wù)器個(gè)別的服務(wù)器響應(yīng)時(shí)間,我們看到其中兩個(gè)被SuperAgent 監(jiān)測(cè)的服務(wù)器的響應(yīng)時(shí)間都是很長(zhǎng),著代表這兩個(gè)服務(wù)器組都有問(wèn)題,而不是單一個(gè)的服務(wù)器。另外,服務(wù)器間的響應(yīng)時(shí)間差異不小,如果服務(wù)器間有基于響應(yīng)時(shí)間實(shí)現(xiàn)負(fù)載平衡的設(shè)備的話,這設(shè)備的效能可能有問(wèn)題。
圖五:服務(wù)器響應(yīng)時(shí)間分布圖
第六:其他的分析
一些其它的分析數(shù)據(jù),可以加速故障診斷,如流量統(tǒng)計(jì)、進(jìn)程報(bào)告,QoS,和響應(yīng)數(shù)據(jù)大小等。
總結(jié):
對(duì)于多層ERP 應(yīng)用,通過(guò)監(jiān)測(cè)應(yīng)用性能,很快便可分割出問(wèn)題出在ERP 的用戶界面,與其他后臺(tái)應(yīng)用層無(wú)關(guān)。(圖一:應(yīng)用性能表)這比動(dòng)態(tài)應(yīng)用性能測(cè)試方便得多。而且通過(guò)應(yīng)用響應(yīng)時(shí)間的分析(圖二:響應(yīng)時(shí)間元件圖),可以定位在服務(wù)器上。然后證實(shí)問(wèn)題是嚴(yán)重的(圖三:服務(wù)器響應(yīng)時(shí)間趨勢(shì)圖),而且影響大(圖四:響應(yīng)時(shí)間元件統(tǒng)計(jì)圖)。問(wèn)題不是在某一個(gè)服務(wù)器,而是其中兩個(gè)ERP 服務(wù)器組。在深入了解時(shí),發(fā)覺(jué)問(wèn)題的原因不是由于用戶太多(根據(jù)用戶量趨勢(shì)圖表),也不是對(duì)話太多(根據(jù)對(duì)話量和拒絕對(duì)話量的圖表),初步懷疑是負(fù)載平衡設(shè)備的問(wèn)題。這些數(shù)據(jù)都是可以提交給相關(guān)的部門(mén)來(lái)處理的和做更深入的分析。回想一下如果沒(méi)有如SuperAgent 這樣的應(yīng)用響應(yīng)監(jiān)測(cè)工具,您會(huì)用什么方法、時(shí)間來(lái)解決這個(gè)ERP 的問(wèn)題呢?
作者:美國(guó)福祿克網(wǎng)絡(luò)公司 來(lái)源:C114(CHINA通信網(wǎng))