增強(qiáng)型語音通話服務(wù)(EVS)編解碼器

    目前,由于音頻帶寬較窄及非語音信號(hào)處理水平較差等限制因素,通話服務(wù)往往無法提供高品質(zhì)的聲音體驗(yàn)。然而,語音和音頻編碼技術(shù)取得的最新進(jìn)展將有助于大幅提升通話服務(wù)質(zhì)量,通過提供全頻帶音頻傳輸實(shí)現(xiàn)更貼近原聲的聲音體驗(yàn),并改善語言清晰度及聆聽舒適度。

    最新通過標(biāo)準(zhǔn)化的增強(qiáng)型語音通話服務(wù)(EVS)編解碼器是首個(gè)提供超寬帶音頻帶寬,且在9.6kbps比特率下仍能極大改善語音通話質(zhì)量的3GPP編解碼器。同時(shí),在處理音樂以及混合內(nèi)容等信號(hào)方面,EVS的性能可與最新的音頻編解碼器相媲美。EVS的關(guān)鍵技術(shù)是在處理語音信號(hào)和音樂信號(hào)的專業(yè)編碼模型之間進(jìn)行靈活切換。這一編解碼器由運(yùn)營商、終端設(shè)備、基礎(chǔ)設(shè)施和芯片提供商以及語音與音頻編碼方面的專家聯(lián)合開發(fā),其中包括愛立信、Fraunhofer集成電路研究所、華為技術(shù)有限公司、諾基亞公司、日本電信電話公司(NTT)、日本NTT DOCOMO公司、法國電信(ORANGE)、日本松下公司、高通公司、三星電子公司、VoiceAge公司及中興通訊股份有限公司等。

*Fraunhofer美國數(shù)字媒體技術(shù)部隸屬于Fraunhofer美國分部,旨在推廣和支持Fraunhofer集成電路研究所在美國推出的產(chǎn)品。

    本文旨在簡要介紹EVS技術(shù)的通信系統(tǒng)藍(lán)圖。在強(qiáng)調(diào)主要設(shè)計(jì)制約因素和特征的同時(shí),也包含了簡要的技術(shù)見解,并展示與探討了在標(biāo)準(zhǔn)化過程中,尤其是選擇和測定階段所進(jìn)行的音質(zhì)評(píng)價(jià)測試結(jié)果。 

    通信系統(tǒng)

    語音通話質(zhì)量與電視上播放的電影原聲相比,標(biāo)準(zhǔn)手機(jī)通話的語音通常都非常模糊。這主要是受現(xiàn)有電話系統(tǒng)音頻帶寬的限制。圖1顯示了傳統(tǒng)通信/廣播電視系統(tǒng)的不同音頻帶寬容量及人耳聽覺系統(tǒng)所能聽到的聲音頻率范圍。

圖1:廣播電視和通信系統(tǒng)的音頻質(zhì)量

    老式電話系統(tǒng)主要支持窄帶音頻信號(hào),音頻帶寬的頻率僅到3.4kHz。高清語音服務(wù)(WB)則可支持寬帶音頻信號(hào),音頻帶寬的頻率達(dá)到7kHz?紤]到人耳聽覺能力,實(shí)現(xiàn)高保真音質(zhì)需要帶寬頻率支持到20kHz,而高清語音服務(wù)技術(shù)仍無法實(shí)現(xiàn)。因此,在高清語音技術(shù)之后又進(jìn)一步出現(xiàn)了全高清語音技術(shù),可提供超寬帶和全頻帶的語音通話質(zhì)量。超寬帶技術(shù)的音頻頻譜為16kHz,而全頻帶的頻率分量高達(dá)20kHz。

    目前,固話服務(wù)可實(shí)現(xiàn)窄帶或?qū)拵дZ音質(zhì)量。這些系統(tǒng)主要采用比特率為64kbit/s的G.711【1】或G.722【2】編解碼技術(shù)。在移動(dòng)通信環(huán)境下,窄帶為默認(rèn)質(zhì)量標(biāo)準(zhǔn);而現(xiàn)在出現(xiàn)了越來越多的寬帶服務(wù)。用于窄帶或?qū)拵б苿?dòng)通信服務(wù)的編解碼器通常采用AMR-NB【3】和AMR-WB【4】編解碼技術(shù),并且一般在12kbit/s比特率下運(yùn)行。一些移動(dòng)網(wǎng)絡(luò)甚至可支持如23.85kbit/s等更高的AMR-WB速率,盡管與默認(rèn)速率相比,在語音質(zhì)量方面的改善仍較為有限。移動(dòng)通信編解碼器在處理語音信號(hào)方面進(jìn)行了極大的優(yōu)化,其結(jié)果導(dǎo)致在處理音樂等信號(hào)方面的能力則不盡如人意。

    目前,用于遠(yuǎn)程或?qū)S靡曨l會(huì)議的通信系統(tǒng)已能實(shí)現(xiàn)全高清語音通話質(zhì)量。針對(duì)這些系統(tǒng)的現(xiàn)行標(biāo)準(zhǔn)編解碼器為AAC-(E)LD音頻編解碼器【5】。這類編解碼器可在24kbit/s至64kbit/s的比特率范圍下運(yùn)行,能夠傳輸語音和音樂信號(hào)。

    AAC-(E)LD音頻編解碼器也被應(yīng)用于OTT服務(wù)。典型的OTT應(yīng)用包括Skype、Facetime等,針對(duì)這些應(yīng)用的IP數(shù)據(jù)包傳輸處理不涉及運(yùn)營商的網(wǎng)絡(luò)管理。

    3GPP EVS編解碼器【6,7】解決了移動(dòng)通話和固話系統(tǒng)中存在的兩大主要問題,即音頻帶寬較窄及非語音信號(hào)處理能力較差。同時(shí),這一編解碼器能在移動(dòng)服務(wù)的常用比特率下運(yùn)行。這為適用于各類網(wǎng)絡(luò)通信質(zhì)量方面的用戶體驗(yàn)新標(biāo)準(zhǔn)奠定了基礎(chǔ),包括固話服務(wù)、移動(dòng)通話服務(wù)和OTT服務(wù)等。在以下的章節(jié)中,本文將概述EVS設(shè)計(jì)可大幅提升服務(wù)質(zhì)量的主要技術(shù)要素。需要注意的是,除音頻編碼器之外,還有很多因素也會(huì)對(duì)端到端服務(wù)的用戶體驗(yàn)產(chǎn)生重大影響。這些因素包括音頻前端處理(包括回聲消除、噪聲抑制、自動(dòng)增益控制、風(fēng)噪聲過濾和混響消除等)以及導(dǎo)致延遲抖動(dòng)及數(shù)據(jù)丟包等的網(wǎng)絡(luò)行為。

    EVS編解碼器介紹

    設(shè)計(jì)目標(biāo)

    EVS編解碼器于2014年9月在3GPP通過標(biāo)準(zhǔn)化評(píng)估【6】,具有多項(xiàng)功能實(shí)現(xiàn)前所未有的多功能性及通訊高效性。這一編解碼器主要面向VoLTE服務(wù),可實(shí)現(xiàn)3GPP設(shè)定的以下目標(biāo):

    1. 提高窄帶(EVS-NB)和寬帶(EVS-WB)語音服務(wù)的質(zhì)量和編碼效率;

    2. 引入超寬帶(EVS-SWB)語音服務(wù),提高通信質(zhì)量;

    3. 提高會(huì)話應(yīng)用程序中混合內(nèi)容和音樂信號(hào)的質(zhì)量;

    4. 具備防止數(shù)據(jù)丟包和延遲抖動(dòng)的能力;

    5. 針對(duì)AMR-WB編解碼器【20】向下兼容。

    如上文所述,本文將主要圍繞設(shè)計(jì)目標(biāo)2和3展開討論。為確保信息完整性,本文后面部分也將討論如何改善目標(biāo)1中提出的傳統(tǒng)窄帶和寬帶服務(wù)。除上述指出的質(zhì)量改善外,EVS編解碼器還具備通信系統(tǒng)所需的一系列功能,如語音活動(dòng)檢測(VAD)、非連續(xù)傳輸(DTX)、舒適噪音生成(CNG)或抖動(dòng)緩沖管理(JBM)等。該編解碼器可在5.9kbit/s至128 kbit/s寬比特率范圍內(nèi)運(yùn)行,從而提供可適用于所有網(wǎng)絡(luò)的比特率。參考【6】中介紹了EVS標(biāo)準(zhǔn)化中所有的設(shè)計(jì)限制因素。

    技術(shù)概述

    編碼模式

    總體來看,音頻編碼可被分為以下兩種模式:

  • 語音編碼:模擬人類聲道
  • 感知編碼:利用人類聽覺系統(tǒng)感知的限制因素

    正如參考【8】中所述,AMR-NB和AMR-WB等高效的語音編碼體系通常擁有三大主要組成部分,包括:(1)模擬人類聲道的短期線性預(yù)測(LP)濾波器;(2)模擬聲帶激勵(lì)信號(hào)周期的長期預(yù)測(LTP)濾波器;及(3)用于對(duì)語音信號(hào)非預(yù)測性內(nèi)容進(jìn)行編碼的創(chuàng)新型代碼本。

    AAC【9】等感知編碼體系主要基于以下三大步驟:(1)進(jìn)行時(shí)間/頻率轉(zhuǎn)換;(2)通過后續(xù)量化階段減少不相關(guān)性,在這一階段可使用心理聲學(xué)模型信息來控制量化誤差;(3)減少冗余,即在編碼階段,通過熵編碼的方式使用代碼表處理量化頻譜系數(shù)和相關(guān)邊信息。這就形成了適應(yīng)于輸入信號(hào)數(shù)據(jù)及人類感知特點(diǎn)的受源代碼控制的編解碼器。

    一般來說,在低比特率情況下,語音編碼方式可更好地處理純粹、清晰的語音信號(hào),而感知編碼方式可更好地處理音樂等一般聲音內(nèi)容,并實(shí)現(xiàn)可感知的、明晰的聲音質(zhì)量。

    首個(gè)結(jié)合了這兩大編碼方式的編解碼器為語音/音頻統(tǒng)合編解碼器(USAC)【8】。USAC算法延遲超過了100毫秒,這是雙向通信應(yīng)用不可接受的。然而,得益于USAC卓越的編碼性能,這一統(tǒng)合的編碼方法已經(jīng)被采用并且取得了進(jìn)一步的優(yōu)化,以滿足EVS極具挑戰(zhàn)性的要求。

    低延遲語音/音頻切換編碼

    在32毫秒低算法延遲下,EVS編解碼器是首個(gè)在語音和音頻壓縮之間部署基于內(nèi)容且具備即時(shí)切換功能的移動(dòng)通信編解碼器,極大地改善了針對(duì)音樂信號(hào)等一般內(nèi)容的編碼性能。

    該語音編碼器是改進(jìn)型代數(shù)碼激勵(lì)線性預(yù)測(ACELP),還采用了適合不同語音類別的線性預(yù)測模式。對(duì)于音頻信號(hào)編碼,則采用頻域(MDCT)編碼方式,并特別關(guān)注低延遲/低比特率情況下的頻域編碼效率,從而在語音處理器和音頻處理器之間實(shí)現(xiàn)無縫可靠的切換。圖2展示了EVS編碼器和解碼器的高級(jí)框圖。

EVS編解碼器結(jié)構(gòu)

圖2:EVS編解碼器結(jié)構(gòu)

    超寬帶編碼及更先進(jìn)的技術(shù)

    EVS可支持超寬帶甚至全頻帶服務(wù),從而克服當(dāng)前通話中聲音不清晰的問題。從技術(shù)上來看,EVS可通過擴(kuò)展帶寬實(shí)現(xiàn)這一目標(biāo)。根據(jù)是否采用語音或音頻模式,可部署時(shí)域帶寬擴(kuò)展(TBE)技術(shù)或一體化頻域解決方案。后者可提供多個(gè)子模式,如可處理傳統(tǒng)音樂信號(hào)的諧波模型編碼模式等。EVS是首個(gè)可提供通過不同方式優(yōu)化的帶寬擴(kuò)展方式的編解碼器,而這樣的帶寬擴(kuò)展方式通常基于源代碼控制來進(jìn)行使用或切換;趯S玫膬(nèi)容優(yōu)化方式,即便在比特率非常低的情況下也能夠提供非常自然、清晰的音質(zhì)。

    性能評(píng)估

3GPP EVS編解碼器針對(duì)多帶寬清晰語音的鑒定測試結(jié)果

圖3:3GPP EVS編解碼器針對(duì)多帶寬清晰語音的鑒定測試結(jié)果

3GPP EVS編解碼器針對(duì)多帶寬混合內(nèi)容和音樂信號(hào)的鑒定測試結(jié)果

圖4:3GPP EVS編解碼器針對(duì)多帶寬混合內(nèi)容和音樂信號(hào)的鑒定測試結(jié)果

    目前,3GPP已進(jìn)行了大量測試來驗(yàn)證EVS在不同情況下以及處理不同內(nèi)容【11】時(shí)所表現(xiàn)出的性能,其中包括根據(jù)P.800 DCR方法【12】進(jìn)行的多頻帶測試。圖3和圖4分別顯示了(DOMS評(píng)分表)中清晰語音(英語)及混合內(nèi)容和音樂信號(hào)的音質(zhì)級(jí)別。結(jié)果顯示了在不同比特率下移動(dòng)蜂窩業(yè)務(wù)常用的窄帶、寬帶和超寬帶下的不同音質(zhì)。下面將對(duì)這些結(jié)果進(jìn)行討論:

    對(duì)于(超寬帶模式下運(yùn)行的)EVS編解碼器,比特率為9.6kbit/s時(shí)純語音音質(zhì)評(píng)價(jià)值已非常高,大大超過了AMR-WB在23.85kbits/s比特率下的音質(zhì),同時(shí)這一數(shù)值將隨比特率的增加而增加。從13.2kbits/s開始,EVS-SWB的語音音質(zhì)已經(jīng)接近“直接來源”(原音)的音質(zhì)。

    (在超寬帶模式下運(yùn)行的)EVS編解碼器在處理混合內(nèi)容和音樂信號(hào)時(shí)的性能大大優(yōu)于AMR-WB編解碼器。在相同比特率下,其得分基本都比AMR-WB編解碼器高出1.2個(gè)平均意見得分(MOS)。在比特率為24.4kbit/s的情況下,EVS編解碼器在處理混合內(nèi)容和音樂信號(hào)時(shí)所呈現(xiàn)的音質(zhì)可接近“直接來源”(原音)的音質(zhì)。

    初看上去,在同等比特率下,即便使用雙倍音頻帶寬,AMR-WB編解碼器在處理混合內(nèi)容和音樂信號(hào)時(shí)呈現(xiàn)的音質(zhì)也比不上AMR-NB編解碼器,這讓人覺得出乎意料。但EVS編解碼器已經(jīng)解決了這一問題。

    在處理窄帶輸入信號(hào)時(shí),EVS編解碼器處理純語音及混合內(nèi)容和音樂信號(hào)時(shí)實(shí)現(xiàn)的音質(zhì)要優(yōu)于AMR-NB編解碼器。這一模式在連接至如固話網(wǎng)絡(luò)等窄帶網(wǎng)絡(luò)時(shí)非常有用。

    眾所周知,由于語言和所選內(nèi)容的不同,測試的結(jié)果及結(jié)果分析也各有不同。然而,在3GPP進(jìn)行篩選的階段,EVS編解碼器已經(jīng)過10種語言、6種不同背景噪音及各種音樂內(nèi)容的測試,展現(xiàn)出了其卓越的性能并大大改善了早期標(biāo)準(zhǔn)。這些測試結(jié)果以及之后對(duì)EVS編解碼器進(jìn)行的進(jìn)一步性能鑒定結(jié)果已在3GPP發(fā)布的技術(shù)報(bào)告(TR)26.953【11】中公布。

    應(yīng)用

    自第四代移動(dòng)網(wǎng)絡(luò)標(biāo)準(zhǔn)LTE問世以來,蜂窩電話網(wǎng)絡(luò)開始向基于IP的傳輸方式轉(zhuǎn)變。LTE標(biāo)準(zhǔn)以發(fā)展成熟的GSM和UMTS標(biāo)準(zhǔn)為基礎(chǔ),可提供全I(xiàn)P架構(gòu)和實(shí)現(xiàn)低延遲。LTE需要部署全I(xiàn)P語音業(yè)務(wù)或VoLTE業(yè)務(wù),而這也可促使所有語音服務(wù)采用IP網(wǎng)絡(luò)進(jìn)行傳輸,最終淘汰基于GSM、UMTS和CDMA等網(wǎng)絡(luò)的傳統(tǒng)轉(zhuǎn)換服務(wù)。

    在全高清語音技術(shù)的推動(dòng)下,服務(wù)提供商可擺脫這些傳統(tǒng)服務(wù)的限制,包括音頻帶寬方面的較大限制及需要使用以處理語音信號(hào)為主的編解碼器等。由于VoLTE可在管理有序的網(wǎng)絡(luò)中提供優(yōu)質(zhì)服務(wù)(QoS),EVS有望在音質(zhì)、穩(wěn)定性和服務(wù)可用性方面超越Skype或Viber等OTT服務(wù)。因此,移動(dòng)運(yùn)營商將可能在語音服務(wù)領(lǐng)域收復(fù)失地。

    得益于杰出的防錯(cuò)能力【10】,EVS非常適用于Wi-Fi語音等最佳網(wǎng)絡(luò),而且未來還可用于3G/電路交換系統(tǒng)。

    結(jié)語

    憑借無法比擬的語音和音頻質(zhì)量等多項(xiàng)新特性,符合3GPP最新標(biāo)準(zhǔn)的EVS編解碼器可作為一種效率最高、功能最全的編解碼器適用于各種網(wǎng)絡(luò)(尤其是蜂窩LTE網(wǎng)絡(luò)和Wi-Fi語音網(wǎng)絡(luò)等),以實(shí)現(xiàn)高質(zhì)量通信。即便在移動(dòng)通信服務(wù)中,EVS編解碼器也能呈現(xiàn)接近原音的音質(zhì),從而為用戶帶來全新的體驗(yàn)。因此,即將推出的EVS編解碼器可為移動(dòng)通信運(yùn)營商及其客戶帶來長遠(yuǎn)的好處。

    參考資料

[1] ITU-T Rec. G.711,“語音頻率的脈沖編碼調(diào)制”

[2] ITU-T Rec. G.712,“64kbit/s內(nèi)的7kHz音頻編碼”

[3] K. Jarvinen.“自適應(yīng)多速率編解碼器的標(biāo)準(zhǔn)化”,Proc. EUSIPCO,2000年9月

[4] B. Bessette等,“自適應(yīng)多速率帶寬語音編解碼器(AMR-WB)”,電氣與電子工程師協(xié)會(huì)(IEEE)“語音和音頻處理”譯文,第10卷,第8號(hào),第620-636頁,2002年11月

[5] M. Schnell等,“MPEG-4 增強(qiáng)型低延遲ACC——高音質(zhì)通信新標(biāo)準(zhǔn)”,第125屆音頻工程師協(xié)會(huì)大會(huì),2008年10月

[6] S. Bruhn等,“新EVS編解碼器標(biāo)準(zhǔn)化”,Proc. ICASSP,2015年4月

[7] Martin Dietz等,“EVS編解碼器架構(gòu)概述”,Proc. ICASSP,2015年4月

[8] M. Neuendorf等,“低比特率下高音質(zhì)語音/音頻統(tǒng)合編碼方案”,Proc. ICASSP,2009年4月

[9] M. Bosi等,“ISO/IEC MPEG-2增強(qiáng)型音頻編碼”,第4382號(hào)論文,第101屆音頻工程師協(xié)會(huì)大會(huì),1996年11月

[10] V. Atti等,“3GPP EVS渠道感知編碼可改善VOLTE及VOIP的容錯(cuò)性”,Proc. ICASSP,2015年4月

[11] 3GPP TR 26.952,“通用移動(dòng)通信系統(tǒng)(UMTS);LTE;EVS編解碼器;性能鑒定”,http://www.3gpp.org/DynaReport/26952.htm

[12] ITU-T Rec. P.800,“傳輸質(zhì)量主觀驗(yàn)證方法”,1996年8月

本文檔的內(nèi)容“按原樣”提供,不帶有任何明示或暗示的擔(dān);驐l件,包括但不限于適銷性、針對(duì)特定用途的默認(rèn)擔(dān)保等。

本文檔內(nèi)容的版權(quán)歸Fraunhofer-Gesellschaft所有,并可在不另行通知的情況下隨時(shí)進(jìn)行修改和/或更新。因此,不允許轉(zhuǎn)售本文全部或部分內(nèi)容或?qū)⑵溆糜谏虡I(yè)用途,或?qū)⑵溆糜谄渌a(chǎn)品。

版權(quán)所有©Fraunhofer-Gesellschaft,2015年7月。

   來源:廠商供稿
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國移動(dòng):6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國移動(dòng)算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點(diǎn)本月熱點(diǎn)

     

      最熱通信招聘

      最新招聘信息