□電信傳輸所 袁琦
一、 引言
IP電話是近幾年內(nèi)發(fā)展起來(lái)的一種新的IP網(wǎng)絡(luò)業(yè)務(wù),它是在基于IP協(xié)議的包(分組)傳輸網(wǎng)絡(luò)上所進(jìn)行的電話通信業(yè)務(wù)。IP電話作為信息技術(shù)進(jìn)步帶來(lái)的一項(xiàng)新型電話業(yè)務(wù),已在全世界范圍內(nèi)得到廣泛使用,并對(duì)傳統(tǒng)電話業(yè)務(wù)形成越來(lái)越大的威脅。
目前IP電話的語(yǔ)音質(zhì)量已成為IP電話業(yè)務(wù)進(jìn)一步發(fā)展的主要障礙,也是IP電話技術(shù)需要解決的重大難題之一。本文主要對(duì)IP電話的語(yǔ)音質(zhì)量進(jìn)行評(píng)價(jià)和分析,并簡(jiǎn)單介紹IP電話語(yǔ)音質(zhì)量的測(cè)試方法。
二、IP電話語(yǔ)音質(zhì)量的評(píng)價(jià)
目前對(duì)IP電話業(yè)務(wù)語(yǔ)音質(zhì)量評(píng)分的評(píng)價(jià)主要有三種模型:MOS模型、PSQM模型和E模型。
1. MOS模型
ITU-T建議P.830描述了一種對(duì)語(yǔ)音的主觀評(píng)定方法-MOS(Mean Opinion Score)方法。根據(jù)P.830建議的要求,特定的發(fā)話者與聽(tīng)話者在特定的環(huán)境下,通過(guò)收集測(cè)試者在各種不同情景下的主觀感受,根據(jù)P.830的分析法則得出該語(yǔ)音的品質(zhì)。P.830對(duì)測(cè)試的要求非常嚴(yán)格,所有的操作都要嚴(yán)格地服從操作流程,對(duì)錄音系統(tǒng)、語(yǔ)音采樣、語(yǔ)音輸入級(jí)別、聽(tīng)者級(jí)別、不同發(fā)話者(8男、8女、8兒童)、多發(fā)話者(多人同時(shí)講話)、差錯(cuò)處理、不同語(yǔ)音編碼方式的兼容性、過(guò)失、環(huán)境噪音、音樂(lè)等等,都作出了詳細(xì)嚴(yán)格的規(guī)定。測(cè)試者的主觀感受結(jié)果也被分為很多不同的范疇,如聽(tīng)者感受的網(wǎng)絡(luò)質(zhì)量結(jié)果、質(zhì)量降級(jí)結(jié)果、比較結(jié)果等。
2. PSQM模型
MOS方法是一種模糊的評(píng)估方法,其測(cè)試結(jié)果很難對(duì)VoIP系統(tǒng)的改進(jìn)和不同VoIP設(shè)備之間性能的比較作出有實(shí)際意義的判別。因此,有人提出借用ITU-T 在P.861 中建議的 PSQM (Perceptual Speech Quality Measurement)方法,用來(lái)作為客觀質(zhì)量度量的評(píng)估。
PSQM的客觀性是指模仿現(xiàn)實(shí)生活中主觀聲音的感知。PSQM仿真實(shí)驗(yàn)中主觀判斷話音編碼器的質(zhì)量,通過(guò)把編碼后的信號(hào)和源信號(hào)進(jìn)行比較,PSQM仍以MOS的5個(gè)級(jí)別作為評(píng)估結(jié)果。PSQM方法并未擺脫原始的人類(lèi)主觀評(píng)估,只是作了進(jìn)一步的說(shuō)明。
圖1為ITU-T P.861定義的PSQM算法的評(píng)價(jià)模型。首先選取符合條件的基準(zhǔn)信號(hào)源,可以是真實(shí)的聲音,也可以是規(guī)定的人工語(yǔ)音。把基準(zhǔn)信號(hào)源和經(jīng)過(guò)網(wǎng)絡(luò)的干擾后信號(hào)輸入到知覺(jué)模型,這個(gè)知覺(jué)模型實(shí)際上是對(duì)信號(hào)進(jìn)行時(shí)間-頻率映射,以及頻率和強(qiáng)度偏差處理。從知覺(jué)模型輸出得到的信號(hào)內(nèi)部表現(xiàn)通過(guò)差別模型進(jìn)行處理,為了獲得主觀和客觀之間的較高關(guān)聯(lián)性,再輸入到認(rèn)識(shí)模型,最后得到質(zhì)量評(píng)分。從這個(gè)評(píng)價(jià)模型可以看出使用者對(duì)語(yǔ)音清晰度的評(píng)價(jià)主要取決于使用者的認(rèn)識(shí)模型,而使用者的認(rèn)識(shí)模型又是受其知覺(jué)模型影響。
3. E模型
E模型最早是由歐洲的ETSI標(biāo)準(zhǔn)組織提出,后來(lái)又由ITU-T標(biāo)準(zhǔn)化形成G.107建議。E模型的思想是將話音信號(hào)傳輸過(guò)程中若干因素對(duì)話質(zhì)的負(fù)面影響綜合為參數(shù)R,用以評(píng)估該話音呼叫的主觀質(zhì)量。R的值越大,表明話音質(zhì)量越好。E模型的R參數(shù)由下式確定:
R = Ro-Is-Id-Ie+A
其中參數(shù)Ro表示噪音帶來(lái)的影響,如背景噪音和電流噪音的干擾。參數(shù)Is表示與語(yǔ)音信號(hào)同時(shí)產(chǎn)生的質(zhì)量影響因素,如由量化、連接噪聲和側(cè)音過(guò)強(qiáng)帶來(lái)的干擾。參數(shù)Id表示由于時(shí)延造成的質(zhì)量影響,包括由于通話回聲和交互性喪失帶來(lái)的干擾。Ie包括由于使用特殊設(shè)備引入的質(zhì)量損失,如低比特率編解碼器的影響和分組丟失的影響。G.729A的Ie為10,G.723.1在5.3kbit/s和6.3kbit/s碼流速率下的Ie分別為19和15。參數(shù)A為預(yù)期值,用以補(bǔ)償由于用戶采用某些帶來(lái)便捷接入的設(shè)備而導(dǎo)致的話音質(zhì)量的影響。對(duì)于傳統(tǒng)電話,A取值為0;而GSM移動(dòng)電話的A值為10。
根據(jù)E模型確定可接受話音質(zhì)量對(duì)應(yīng)的R值。編解碼器類(lèi)型、通信模式和傳輸協(xié)議的不同,會(huì)使上式中的各個(gè)分量有不同的取值,從而得到不同的R值。
三、 影響IP電話語(yǔ)音質(zhì)量的關(guān)鍵因素分析
影響VoIP業(yè)務(wù)語(yǔ)音質(zhì)量評(píng)分的主要因素有:
- 同時(shí)通過(guò)網(wǎng)關(guān)的數(shù)據(jù)流量
- 采樣和糾錯(cuò)技術(shù)
- 語(yǔ)音的延時(shí)
- IP包在網(wǎng)絡(luò)上的丟失
- 語(yǔ)音數(shù)據(jù)包抖動(dòng)
- 傳統(tǒng)問(wèn)題:話音輸入輸出設(shè)備質(zhì)量、電平、噪聲、回?fù)p和ECHO PATH 延遲(產(chǎn)生于GSM/PSTN段);
1、 網(wǎng)關(guān)的語(yǔ)音處理技術(shù)
(1)語(yǔ)音的編碼與壓縮
VoIP業(yè)務(wù)的關(guān)鍵技術(shù)之一就是語(yǔ)音的編碼及壓縮技術(shù),采取的編解碼算法和壓縮技術(shù)直接影響到VoIP業(yè)務(wù)的語(yǔ)音質(zhì)量。語(yǔ)音的編碼及壓縮過(guò)程在網(wǎng)關(guān)中完成,這個(gè)過(guò)程需要先進(jìn)行數(shù)字編碼,轉(zhuǎn)換為PCM碼,然后經(jīng)過(guò)專(zhuān)門(mén)的DSP芯片進(jìn)行數(shù)據(jù)壓縮,最后再形成IP包數(shù)據(jù)的形式,以適合IP網(wǎng)絡(luò)上的傳輸帶寬。
根據(jù)語(yǔ)音信號(hào)的不同特征,語(yǔ)音編碼通?梢苑譃閮纱箢(lèi):波形基編碼和參數(shù)基編碼。話音編碼按比特速率的劃分為:高速編碼,中速編碼和低速編碼。
波形基編碼是通過(guò)抽樣和量化過(guò)程,并利用統(tǒng)計(jì)特性和聽(tīng)覺(jué)特性對(duì)語(yǔ)音信息進(jìn)行壓縮編碼,最早也是最著名的波形基編碼就是PCM,波形基編碼包含三個(gè)過(guò)程:抽樣、量化和編碼;波形基編碼不適應(yīng)于低速話音編碼,一般屬于中高速編碼。
參數(shù)基編碼是將語(yǔ)音信號(hào)用某種模型表示,僅僅對(duì)表示語(yǔ)音特征的參數(shù)進(jìn)行編碼。參數(shù)基編碼一般屬于中低速編碼。
ITU-T在G系列建議中對(duì)語(yǔ)音編碼技術(shù)進(jìn)行了標(biāo)準(zhǔn)化,已經(jīng)公布了一系列語(yǔ)音編碼協(xié)議,采用波形基編碼的方式主要有G.711、G.721、G.722、G.723、G.726、G.727,采用參數(shù)基編碼方式的主要有G.728、G.729、G.729A、G.723.1。這些協(xié)議采用不同的算法,具有不同的速率。較高速率的編碼協(xié)議對(duì)話音質(zhì)量較易保證,但占用網(wǎng)絡(luò)資源較大;較低速率的編碼協(xié)議對(duì)話音質(zhì)量較難保證,但占用網(wǎng)絡(luò)資源小。這些語(yǔ)音壓縮方式的比較如表3所示。
編碼壓縮方法由ITU-T統(tǒng)一制定并標(biāo)準(zhǔn)化,它的壓縮能力由DSP的處理能力決定,即復(fù)雜度。復(fù)雜度決定了編解碼器硬件的成本和功耗,也影響到編解碼器的實(shí)時(shí)性。復(fù)雜度的衡量指標(biāo)是定點(diǎn)DSP實(shí)現(xiàn)編解碼所需的處理器能力,以百萬(wàn)指令/秒(MIPS)為單位。
編碼壓縮僅負(fù)責(zé)對(duì)實(shí)際傳輸?shù)腎P包數(shù)據(jù)進(jìn)行壓縮,它不負(fù)責(zé)對(duì)IP頭壓縮。一般,IP/UDP頭(包括地址信息和控制信息)要耗去7kbit/s左右的帶寬。
在實(shí)際選擇壓縮算法時(shí),要綜合考慮各種因素。例如,高比特率可以保證良好的話音品質(zhì),但要占用大量的存儲(chǔ)空間,耗費(fèi)更多的系統(tǒng)資源;而過(guò)低的比特率又會(huì)影響話音的品質(zhì)和增加延遲。所以,在較低比特率的前提下,保持較好的話音質(zhì)量,是選擇壓縮算法的原則。
從互通性角度考慮,IP電話網(wǎng)關(guān)對(duì)其它編碼協(xié)議亦應(yīng)全部支持或部分支持。特別是對(duì)于G.729/ G.729A,由于其編碼速率亦較低。而且其編碼時(shí)延較G.723.1小,因此建議IP電話網(wǎng)中給予支持。
為保證一定的通話質(zhì)量,網(wǎng)關(guān)必須設(shè)有輸入緩沖,以盡可能地消除時(shí)延抖動(dòng)對(duì)通話質(zhì)量的影響。另外,網(wǎng)關(guān)應(yīng)該具有語(yǔ)音編碼的動(dòng)態(tài)轉(zhuǎn)換功能,即網(wǎng)關(guān)設(shè)備能夠自動(dòng)地在較高速率的語(yǔ)音編碼和較低速率的語(yǔ)音編碼之間的轉(zhuǎn)換。當(dāng)網(wǎng)絡(luò)擁塞時(shí)可以由高碼速轉(zhuǎn)換到低碼速,當(dāng)網(wǎng)絡(luò)條件較好時(shí),可以由低碼速轉(zhuǎn)換到高碼速以提高語(yǔ)音質(zhì)量。語(yǔ)音編碼的動(dòng)態(tài)轉(zhuǎn)換是網(wǎng)關(guān)設(shè)備在IP電話QoS管理方面的一個(gè)重要功能。
(2)DTMF檢測(cè)
DTMF信號(hào)傳輸在語(yǔ)音網(wǎng)絡(luò)中極為重要,因?yàn)榫W(wǎng)絡(luò)不僅傳輸被叫方的撥叫號(hào)碼,而且用來(lái)激活基本電路特性。信號(hào)質(zhì)量的衰減會(huì)影響到DTMF信號(hào)的識(shí)別。DTMF信號(hào)的失真又會(huì)影響話音服務(wù)的質(zhì)量。
DTMF信號(hào)由電話鍵盤(pán)使用相同幅度的兩個(gè)不同的高頻和低頻來(lái)產(chǎn)生。網(wǎng)關(guān)需轉(zhuǎn)換電話中常用的DTMF信號(hào),應(yīng)能檢測(cè)DTMF信號(hào),并將其轉(zhuǎn)換為H.245消息中的"用戶輸入指示"信息單元予以傳送,可取值0~9、*和#,反之,應(yīng)能生成DTMF信號(hào)。
網(wǎng)關(guān)中的低比特率編解碼器適用于語(yǔ)音信號(hào)而不是正弦信號(hào),它們會(huì)改變信號(hào)的頻率和幅度,所以難以傳輸DTMF信號(hào),并很難高保真地恢復(fù)它們。
(3) 靜音抑制
靜音抑制,又稱(chēng)語(yǔ)音活動(dòng)偵測(cè)(VAD)。靜音抑制的目的是從聲音信號(hào)流里識(shí)別和消除長(zhǎng)時(shí)間的靜音期,以達(dá)到在不降低業(yè)務(wù)質(zhì)量的情況下節(jié)省話路資源的作用,它是IP電話應(yīng)用的重要組成部分。靜音抑制可以節(jié)省寶貴的帶寬資源,可以有利于減少用戶感覺(jué)到的端到端的時(shí)延。
用戶打電話時(shí),并不是總在占用通話信道。根據(jù)傳統(tǒng)電話業(yè)務(wù)的統(tǒng)計(jì),一方用戶實(shí)際占用通話信道的時(shí)間不會(huì)超過(guò)整個(gè)通話時(shí)間的40%。這主要包括以下幾個(gè)方面的原因:一是正在聽(tīng)對(duì)方說(shuō)話;二是由于思考,稍事休息等原因引起的一段話之間的停頓;三是說(shuō)話中間的停頓,如猶豫,呼吸,口吃等。第一種情況下停頓間隙長(zhǎng)而出現(xiàn)頻率低;第三種情況停頓間隙短而出現(xiàn)頻率高;第二種情況界于一、三種情況之間。語(yǔ)音源的這種特性叫做開(kāi)關(guān)特性,有時(shí)也叫話音/靜默特性。
在用戶沒(méi)有講話時(shí),就沒(méi)有語(yǔ)音分組的發(fā)送,從而可以進(jìn)一步降低語(yǔ)音比特率。當(dāng)用戶的語(yǔ)音信號(hào)能量低于一定門(mén)限值時(shí)就認(rèn)為是靜默狀態(tài),也不發(fā)送語(yǔ)音分組。當(dāng)檢測(cè)到突發(fā)的活動(dòng)聲音時(shí)才生成語(yǔ)音信號(hào),并加以傳輸。運(yùn)用這種技術(shù)能夠獲得大于50%的帶寬。
在進(jìn)行靜音檢測(cè)時(shí)有兩個(gè)問(wèn)題需要注意:一是背景噪聲問(wèn)題,即如何在較大的背景噪聲中檢測(cè)靜音;二是前后沿剪切問(wèn)題。所謂前后沿剪切就是還原語(yǔ)音時(shí),由于從實(shí)際講話開(kāi)始到檢測(cè)到語(yǔ)音之間有一定的判斷門(mén)限和時(shí)延,有時(shí)語(yǔ)音波形的開(kāi)始和結(jié)束部分會(huì)作為靜音被丟掉,還原的語(yǔ)音會(huì)出現(xiàn)變化,因此需要在突發(fā)語(yǔ)音分組前面或后面增加一個(gè)語(yǔ)音分組進(jìn)行平滑以解決這一問(wèn)題。
在實(shí)際使用中,如果出現(xiàn)長(zhǎng)時(shí)間的靜默,會(huì)使用戶感到很不自然。因此實(shí)際上接收端常常會(huì)在靜音期間發(fā)送一些分組,從而生成使用戶感覺(jué)舒服一些的背景噪聲,即所謂的舒適噪聲。
(4) 回聲處理
回聲是信號(hào)通過(guò)網(wǎng)絡(luò)時(shí)的反射。本地?fù)P聲器輸出的模擬語(yǔ)音信號(hào)可能又被話筒接收,當(dāng)信號(hào)被傳回到源端時(shí),就會(huì)產(chǎn)生不必要的回聲。在傳統(tǒng)固話網(wǎng)中,從4線交換到2線本地環(huán)路時(shí)的阻抗會(huì)導(dǎo)致回聲,或者是由麥克風(fēng)和揚(yáng)聲器或耳機(jī)之間的耦合效果不好也會(huì)導(dǎo)致回聲。在IP網(wǎng)中,呼叫必須經(jīng)過(guò)多個(gè)路由器和網(wǎng)關(guān),其相當(dāng)長(zhǎng)的延遲又會(huì)造成回聲問(wèn)題的進(jìn)一步惡化。典型的延遲是16ms-20ms的回聲叫做側(cè)音,它有利于談話者聽(tīng)到自己的聲音。但是延遲超過(guò)了25ms,聽(tīng)到的聲音就會(huì)被扭曲,甚至中斷談話。回聲可以用回聲消除器加以控制。在VoIP網(wǎng)絡(luò)中,把回聲消除器放在了低比特編碼器中,并且運(yùn)行于每個(gè)DSP之上;芈曄鞯脑O(shè)計(jì)受到等待接收反射回來(lái)的話音的整個(gè)時(shí)間大小的限制。
2、 承載的IP網(wǎng)絡(luò)
承載的IP網(wǎng)絡(luò)基于TCP/IP協(xié)議進(jìn)行數(shù)據(jù)包的分組交換,是面向無(wú)連接網(wǎng)絡(luò),其傳輸特性無(wú)法得到保證。每個(gè)分組包含源和目的IP地址,分組包既沒(méi)有標(biāo)記為屬于某一個(gè)特定的流或者一個(gè)連接,也沒(méi)有以任何方式進(jìn)行編號(hào)。每個(gè)IPv4節(jié)點(diǎn)盡其最大的努力,對(duì)每個(gè)分組獨(dú)立進(jìn)行路由轉(zhuǎn)發(fā),并在網(wǎng)絡(luò)中獨(dú)立傳遞,達(dá)到同一目的地分組的路由不一定相同,到達(dá)時(shí)間也是不固定且非實(shí)時(shí)的,最后在目的節(jié)點(diǎn)緩沖區(qū)重新組成數(shù)據(jù)。因此數(shù)據(jù)包傳送所需時(shí)延無(wú)法保證,途中的丟包更無(wú)法控制,并造成IP包傳輸?shù)臅r(shí)延抖動(dòng)。
承載的IP網(wǎng)絡(luò)的上述機(jī)制能夠較好地支持非實(shí)時(shí)的數(shù)據(jù)業(yè)務(wù),但對(duì)實(shí)時(shí)業(yè)務(wù)支持不夠。盡管IP協(xié)議中有業(yè)務(wù)類(lèi)別的區(qū)別,用戶依此表示為網(wǎng)絡(luò)的時(shí)延,帶寬以及安全性等特征參數(shù),從而來(lái)獲取希望的QoS,但在實(shí)際的IP網(wǎng)絡(luò)中,并沒(méi)有真正完全參照這些參數(shù)(業(yè)務(wù)類(lèi)別的劃分及對(duì)應(yīng)的QoS參數(shù))來(lái)使用。因此傳統(tǒng)的IP網(wǎng)傳送實(shí)時(shí)的VoIP業(yè)務(wù)能力較差。
在IP電話業(yè)務(wù)中,網(wǎng)絡(luò)和網(wǎng)關(guān)帶來(lái)的時(shí)延都可能會(huì)嚴(yán)重地影響語(yǔ)音質(zhì)量,這就要求運(yùn)營(yíng)商必須提供高質(zhì)量的IP網(wǎng)絡(luò)。這可以通過(guò)兩種途徑來(lái)解決,一是增加網(wǎng)絡(luò)帶寬,二是通過(guò)在網(wǎng)絡(luò)中實(shí)現(xiàn)QoS服務(wù)來(lái)實(shí)現(xiàn)帶寬的合理利用,從而滿足IP電話業(yè)務(wù)對(duì)實(shí)時(shí)性的要求。
足夠的帶寬是確保語(yǔ)音數(shù)據(jù)包無(wú)延時(shí)地到達(dá)目的地所必須的。如果網(wǎng)絡(luò)正面臨阻塞問(wèn)題時(shí),就需要更大的網(wǎng)絡(luò)帶寬來(lái)解決這個(gè)問(wèn)題,僅僅采用優(yōu)先機(jī)制只能部分消除分組包的丟失問(wèn)題。假如不希望丟棄任何數(shù)據(jù)包的話,就必須增加帶寬了。
實(shí)現(xiàn)業(yè)務(wù)傳輸優(yōu)先級(jí)保證的關(guān)鍵在于引入一種服務(wù)質(zhì)量機(jī)制(QoS),允許網(wǎng)絡(luò)將不同類(lèi)型的業(yè)務(wù)置于特定的QoS隊(duì)列中,使得語(yǔ)音業(yè)務(wù)的傳輸優(yōu)先級(jí)高于數(shù)據(jù)業(yè)務(wù),從而降低隊(duì)列延時(shí),實(shí)時(shí)性得到保障。
四、 IP電話語(yǔ)音質(zhì)量的測(cè)試
IP電話業(yè)務(wù)的主觀評(píng)定MOS評(píng)分由測(cè)試人員通過(guò)通話根據(jù)評(píng)分標(biāo)準(zhǔn)主觀評(píng)定的,可簡(jiǎn)單地由20-60個(gè)非專(zhuān)職測(cè)試者對(duì)所聽(tīng)的話音進(jìn)行綜合打分,然后進(jìn)行統(tǒng)計(jì)分析。
IP電話業(yè)務(wù)的客觀評(píng)定PSQM評(píng)分指標(biāo)可利用測(cè)試儀表進(jìn)行測(cè)試,目前國(guó)內(nèi)外眾多的測(cè)試儀表廠商已經(jīng)開(kāi)發(fā)出許多用于PSQM評(píng)分值的測(cè)試儀表。Agilent公司的Telegra VQT語(yǔ)音質(zhì)量測(cè)試儀,能夠測(cè)試端到端語(yǔ)音時(shí)延、清晰度、靜音抑制和DTMF音調(diào)分析等參數(shù),能夠提供專(zhuān)業(yè)的端到端的語(yǔ)音質(zhì)量(PSQM)測(cè)試,并對(duì)話音質(zhì)量進(jìn)行客觀分析。美國(guó)Ameritec的解決方案為利用各種型號(hào)的大話務(wù)量呼叫器發(fā)起呼叫,并在其上配置"Golden Voice"復(fù)合音調(diào)發(fā)生器,利用呼叫產(chǎn)生的標(biāo)準(zhǔn)測(cè)試音信號(hào),在被叫端或呼叫經(jīng)過(guò)的網(wǎng)絡(luò)進(jìn)行話音質(zhì)量的分析和丟包、抖動(dòng)、沿切割、延時(shí)等測(cè)試。Spirent公司的Abcus測(cè)試儀也能完成PSQM評(píng)分指標(biāo)的測(cè)試。國(guó)內(nèi)的中創(chuàng)信測(cè)公司研制開(kāi)發(fā)出了IP電話測(cè)試儀,中創(chuàng)的IP電話測(cè)試儀采用捕捉協(xié)議包的方式實(shí)時(shí)對(duì)H.323呼叫過(guò)程跟蹤分析,可進(jìn)行IP語(yǔ)音包的提取及語(yǔ)音質(zhì)量分析。
關(guān)于IP電話業(yè)務(wù)的R值評(píng)分,目前國(guó)內(nèi)外還沒(méi)有這方面的測(cè)試儀表,相關(guān)研究機(jī)構(gòu)和測(cè)試儀表廠家正在積極地進(jìn)行E模型的研究與開(kāi)發(fā)。
摘自《通信世界》