嚴(yán)重的呼叫質(zhì)量和性能管理問題會影響VoIP (Voice over IP)系統(tǒng)的運(yùn)作。網(wǎng)絡(luò)管理員等人需要理解基本的呼叫質(zhì)量測量技術(shù)才能很好地監(jiān)測、管理和診斷在VoIP中出現(xiàn)的這些問題。本文介紹了常用的幾種呼叫質(zhì)量測量方法,聯(lián)系實(shí)際對這些方法進(jìn)行了解釋,并描述了VoIP網(wǎng)絡(luò)服務(wù)中的用戶可接受的話音質(zhì)量。
VoIP呼叫質(zhì)量會受噪聲、畸變、信號幅度過高或過低、回聲、通話間隙和許多其他問題的影響。
在測量呼叫質(zhì)量時(shí),需要研究三類基本的服務(wù)質(zhì)量:
圖1:一個(gè)真正ACR測量的收聽者投票圖。
1. 收聽質(zhì)量--指用戶對呼叫過程中所聽到的聲音質(zhì)量的評價(jià)。
2. 會話質(zhì)量--指用戶在整個(gè)通話過程中基于收聽質(zhì)量和會話能力而對呼叫作出的評價(jià),包括回音和延遲等可能影響通話的相關(guān)問題。
3. 傳輸質(zhì)量--指用于承載話音信號的網(wǎng)絡(luò)連接的質(zhì)量。傳輸質(zhì)量測量是與細(xì)節(jié)呼叫質(zhì)量測量相對的一種網(wǎng)絡(luò)服務(wù)質(zhì)量測量。
呼叫質(zhì)量測量的目的是通過主觀或客觀的測量方法,即通過人為的測量項(xiàng)目或基于計(jì)算機(jī)的測量工具,對一種或多種以上的呼叫質(zhì)量類別給出一個(gè)可信的估計(jì)。
主觀收聽質(zhì)量測量
主觀測量是一種久經(jīng)考驗(yàn)的話音質(zhì)量測量方法,但這種方法成本太高,費(fèi)時(shí)也太長。有一種更廣為人知的主觀類測量方法,叫做絕對種類定級(Absolute Category Rating, ACR)測量。
在ACR測量中,收聽者按照從1到5的5級損傷指標(biāo)對一系列音頻文件進(jìn)行分級:
5 非常好
4 好
3 可以
2 較差
1 差
在取得了每個(gè)收聽者給出的得分之后,計(jì)算所有音頻文件的一般或平均意見得分(Mean Opinion Score, MOS)。為了使ACR測量得到可信的測量結(jié)果,接受測量的人數(shù)至少應(yīng)在16個(gè)以上,而且測量應(yīng)該在一個(gè)安靜的環(huán)境下,在可控的條件下完成。
通常,ACR測量的得分隨收聽者的增加而趨向穩(wěn)定。為了降低測量得分的可變性并幫助衡量測量結(jié)果,測量中通常會包括一些參考文件,這些文件中包含了“為業(yè)界接受的”MOS得分。
圖2:R因素與MOS得分之間的關(guān)系。
圖1給出了一個(gè)由16位收聽者進(jìn)行的真實(shí)的ACR測量的原始投票情況,測量結(jié)果給出的MOS得分為2.4。在2分和3分這兩個(gè)意見分等級上出現(xiàn)的高票數(shù)與結(jié)果2.4分的MOS得分是一致的,但仍有很多收聽者把選票投向了1分和4分。
進(jìn)行一項(xiàng)主觀測量時(shí),必須認(rèn)識到這種測量是真正由主觀因素決定的,測量結(jié)果可能會隨測量主體的不同而有很大差異。在電話產(chǎn)業(yè)界,廠商們通常提供與CODEC相關(guān)的MOS得分,而現(xiàn)實(shí)中,這些得分則是從某個(gè)主觀測量中選出的一個(gè)值。
測量實(shí)驗(yàn)室中通常采用語音平衡文本源(如哈佛句,Harvard Sentences)的高質(zhì)量音頻錄音作為被測VoIP系統(tǒng)的輸入。哈佛句是一組精心選擇的英文短語,其中包含了人們談話中常會出現(xiàn)的語音。哈佛句的錄音是采用高分辨率(16比特)的數(shù)字錄音系統(tǒng),在安靜的條件下完成的,之后錄音被調(diào)節(jié)成具備標(biāo)準(zhǔn)的信號電平和頻譜特性。語音平衡談話材料的來源是國際電信聯(lián)盟(ITU)和開放語音庫(Open Speech Repository)。
除了ACR測量以外,惡化種類定級(Degradation Category Rating, DCR)和對照種類定級(Comparison Category Rating, CCR)也屬于主觀類測量。其中,DCR考察受損聲音文件的惡化程度,并給出一個(gè)DMOS得分。而CCR測量則比較一對文件,給出CMOS得分。
為了區(qū)別收聽得分和會話得分,國際電信聯(lián)盟(ITU)提出了帶S(主觀,Subjective)、O(可觀,Objective)和E(估計(jì),Estimated)后綴的MOS收聽質(zhì)量(MOS-LQ)和MOS會話質(zhì)量(MOS-CQ)這兩個(gè)術(shù)語。一次ACR測量得到的收聽質(zhì)量得分就是MOS-LQS。
會話質(zhì)量測量
會話質(zhì)量測量比較復(fù)雜,因而也較少使用。在會話測量中,通常會將一群收聽者放在交互式通信的環(huán)境下,并要求他們通過一個(gè)電話或VoIP系統(tǒng)完成一項(xiàng)任務(wù)。測量人員在系統(tǒng)中加入延遲和回聲等效應(yīng),然后調(diào)查測量主體對連接質(zhì)量看法如何。
延遲效應(yīng)對會話質(zhì)量的影響隨任務(wù)不同而有很大差異。對于非交互式的任務(wù)而言,幾百毫秒的單向延遲都是可以忍受的;而對交互性較強(qiáng)的任務(wù),哪怕是很短的延遲都可能造成會話困難。
延遲對不同任務(wù)影響不同的這種情況就造成在會話呼叫質(zhì)量的解釋上出現(xiàn)問題。例如,兩個(gè)相同的VoIP系統(tǒng)連接都會產(chǎn)生300毫秒的單向延遲,但一個(gè)系統(tǒng)用于高交互性的商業(yè)談判,而另一個(gè)系統(tǒng)則用于朋友間的非正式聊天。那么前一個(gè)系統(tǒng)中的用戶可能會覺得呼叫質(zhì)量很差,而后一個(gè)系統(tǒng)中的用戶則可能根本注意不到這一延遲。
基于樣本的客觀測量
ITU開發(fā)了P.861(PSQM)和更新的P.862,力圖用成本更低的客觀測量法來做為主觀收聽質(zhì)量測量的補(bǔ)充。采用這些測量技術(shù),可以通過比較送入系統(tǒng)中的一個(gè)原始參考文件與輸出的受損文件之間的差異,得到由傳輸系統(tǒng)或CODEC引入的失真。這些技術(shù)的初衷雖然是為了CODEC的實(shí)驗(yàn)室測量,但在VoIP網(wǎng)絡(luò)測量中也得到了廣泛使用。
P.861和P.862算法將參考信號和受損信號都分成較短的交迭樣本塊,計(jì)算每一塊的傅立葉變換系數(shù),并比較他們的系數(shù)。P.862算法最后給出一個(gè)PESQ得分,該得分與MOS的范圍相近,但它并不是MOS的準(zhǔn)確映射。新的PESQ-LQ得分更接近收聽質(zhì)量MOS。這些算法都同時(shí)要求訪問源文件和輸出文件才能測量后者相對于前者的失真。
2004年,ITU制定了P.563標(biāo)準(zhǔn),這是一個(gè)單端客觀測量算法,能夠只對接收到的音頻流進(jìn)行操作。P.563測量得到的MOS得分比P.862更廣,要使結(jié)果更穩(wěn)定,必須多次測量并對結(jié)果進(jìn)行平均。這一方法并不適合測量個(gè)別呼叫,但在測量多個(gè)呼叫的服務(wù)質(zhì)量時(shí),能夠得到可信的測量結(jié)果。
圖3:R因素和用戶意見之間的關(guān)系。
這類算法對每一個(gè)樣本都要進(jìn)行大量計(jì)算,在測量窄帶話音信號時(shí)每秒需處理8,000個(gè)樣本,在測量寬帶話音信號時(shí)每秒需處理16,000個(gè)樣本,處理負(fù)荷(相當(dāng)于每個(gè)呼叫流需100MIPS)和對存儲器的要求都很高。因此,這類算法對很多應(yīng)用而言都并不實(shí)際,這時(shí),就應(yīng)采用基于分組的測量方法。
E 模型和VQmon
VQmon是一種高效的基于E模型的VoIP呼叫質(zhì)量監(jiān)控技術(shù),它能在功耗低于P.861/862/563方法的千分之一的情況下給出呼叫質(zhì)量得分。E模型是歐洲電信標(biāo)準(zhǔn)協(xié)會(ETSI)開發(fā)的,本來用作電信網(wǎng)絡(luò)的傳輸規(guī)劃工具,但該模型也在VoIP服務(wù)質(zhì)量測量中廣泛使用。
E模型(在ETSI技術(shù)報(bào)告ETR250中有對其的描述)是在幾個(gè)較早的評價(jià)模型的基礎(chǔ)之上發(fā)展起來的,在1998年被ITU標(biāo)準(zhǔn)化,成為G.107建議,然后每年更新并修訂。E模型中那些使它能夠用于VoIP服務(wù)質(zhì)量監(jiān)控的擴(kuò)展性能由Telchemy公司開發(fā),并在ETSI TS 101 329-5 Annex E中被標(biāo)準(zhǔn)化。
采用E模型是為了對傳輸質(zhì)量定級,也就是說,確定包含話音通道的“由口至耳”特性的“R”因素。R因素的取值范圍為0-120,窄帶電話上R因素通常取50-94,而寬帶電話上R取值在50-110。R因素的值可以轉(zhuǎn)換為會話和收聽質(zhì)量MOS得分(MOSCQ and MOS-LQ)的估計(jì)值。
E模型基于一個(gè)假定,那就是話音質(zhì)量損傷的效果是加性的;綞模型等式為:
R=Ro-Is-Id-Ie+A
其中: Ro是由噪聲電平和信號響度等決定的基礎(chǔ)因素;Is代表與語音同時(shí)出現(xiàn)的信號損傷,包括響度、量化(CODEC)失真和非優(yōu)化側(cè)音電平;Id指滯后于語音的損傷,包括回聲和延遲造成的會話困難;Ie是“設(shè)備損傷因素”,指VoIP系統(tǒng)對傳輸信號的影響;Ai是“優(yōu)勢因素”,指用戶在撥打電話時(shí)的期望因素。例如移動電話使用起來很方便,因此人們對使用時(shí)與通話質(zhì)量相關(guān)的問題就比較寬容。
VQmon是E模型的擴(kuò)展,其中包含了時(shí)變的IP網(wǎng)絡(luò)損傷效應(yīng),它能更準(zhǔn)確地估計(jì)用戶意見。VQmon中也包含了一些能夠支持寬帶CODEC的擴(kuò)展。
話音質(zhì)量測量方法的比較
圖2給出了E模型和MOS所生成的R因素之間的關(guān)系。ITU G.107中所提供的“官方”映射函數(shù)規(guī)定,4.4的MOS得分對應(yīng)93的R因素(在典型無損G.711連接,即常規(guī)電話連接情況下)。
近期的ACR主觀測量數(shù)據(jù)顯示,對無損G.711用4.1到4.2的MOS得分來評價(jià)更合適。
這與圖中所示“典型ACR”的映射稍有不同。在日本,TTC委員會根據(jù)日本國內(nèi)進(jìn)行的主觀測量結(jié)果開發(fā)了一套R因素到MOS的映射方法。他們給出的得分一直都比美國和歐洲的低,這一部分是因?yàn)樗麄儗|(zhì)量和話音傳輸?shù)奈幕斫馀c歐美不同。因此上圖一共給出了三種可能的從R到MOS 的映射:
圖4:典型的呼叫質(zhì)量水平表示。
1. ITU G.107映射;
2. ACR映射;
3. 日本TTC映射;
但當(dāng)系統(tǒng)中使用了寬帶CODEC后,又引入另一個(gè)復(fù)雜因素。ACR測量實(shí)際上是與某些參考條件有關(guān)的,只有1-5這幾個(gè)固定的級別。而在寬帶測量中,使用的是同樣的級別,因此當(dāng)一個(gè)窄帶CODEC有4.1的MOS得分時(shí),一個(gè)聽起來遠(yuǎn)遠(yuǎn)優(yōu)于它的寬帶CODEC可能只有3.9的MOS得分。R因素則不同,它既涵蓋了窄帶也涵蓋了寬帶。因此一個(gè)寬帶CODEC的R因素可能有105,而窄帶CODEC的R因素通常只有93。
圖3給出了R因素和認(rèn)為呼叫好或較好(GoB)、差或較差(PoW)或者早早掛機(jī)(TME)的用戶百分比之間的關(guān)系。例如,當(dāng)R因素為60時(shí),超過40%的用戶會認(rèn)為呼叫質(zhì)量“好”,接近20%的用戶會認(rèn)為呼叫質(zhì)量“差”,還有大約10%的用戶會早早掛機(jī)。
可接受的話音質(zhì)量水平
圖4列出了典型的呼叫質(zhì)量水平表示。通常,當(dāng)R因素等于或大于80,就代表呼叫質(zhì)量較好。但還有一些關(guān)鍵問題需要注意:R因素是一種會話測量方法,因此R因素大于或等于80不僅意味著收聽質(zhì)量好,也意味著延遲小。而MOS(ITU規(guī)定)為4.0則不同,因?yàn)檫@是指MOS-LQ,其中并未涵蓋延遲。也就是說R大于等于80與MOS等于4.0這兩種說法所代表的意義并不一致。為此,Telchemy引入了符號R-LQ和 R-CQ,這樣,R-LQ等于80與MOS等于4.0就具有可比性了。
VoIP (基于因特網(wǎng)協(xié)議的話音通信)
廠商們針對G.729A提出的MOS通常為3.9,這就意味著G.729A無法滿足ITU所規(guī)定的MOS。但事實(shí)上,G.729A應(yīng)用很廣泛,而且似乎用戶的接受度也還不錯(cuò)。這一問題的產(chǎn)生源自MOS定標(biāo),而非CODEC。CODEC的ACR得分應(yīng)該與一個(gè)ACR定標(biāo)范圍進(jìn)行比較。例如,“滿意”應(yīng)該從3.7到4.1,那么MOS值為3.9的G.729A就應(yīng)在滿意的范圍內(nèi)。
本文小結(jié)
在定義呼叫質(zhì)量目標(biāo)時(shí),必須用語義清晰的術(shù)語來表達(dá),即所規(guī)定的是R Factor (R-CQ) 還是MOS-CQ,抑或是MOS-LQ和延遲的綜合質(zhì)量。如果采用的是寬帶或窄帶CODEC,那么為了避免混淆,就必須解釋清楚MOS得分是“窄帶MOS”還是“寬帶MOS”。
參考文獻(xiàn):
[1] ETSI TS 101 329-5 QoS Measurement for VoIP
[2] ITU-T G.107 The E Model: A computational model for use in planningI
[3] ITU-T SG12 Contribution D103, Proposed clarification to ?°MOS?± terminology, January 2003
[4] ITU-T SG12 Contribution D105, VQmon Description, January 2003
[5] ITU-T Recommendation P.862 Perceptual Estimation of Speech Quality (PESQ)
作者:Alan Clark
CEO & President
Telchemy Incorporated
alan.clark@telchemy.com
來源:電子工程專輯