語音編碼器分為三種類形:(a)波形編器;(b)聲碼器;(c)混合編碼器。
波形編碼器會(huì)盡可能構(gòu)出包括背景噪單在內(nèi)的模擬波形。由于波形編碼器作用于所有輸入信號(hào),因此會(huì)產(chǎn)生高質(zhì)量的樣值。然而,波形編碼器工作在高比特率。例如:ITU-G.711規(guī)范(PCM)用的比特率為64Kbps。 聲碼器(vocoder)不會(huì)再生原始波形。這組編碼器會(huì)提取一組參數(shù),這組參數(shù)被送到接收端,用來導(dǎo)出語音產(chǎn)生模形。線性預(yù)測編碼(LPC)用來獲取一時(shí)變數(shù)字濾波器的參數(shù)。這個(gè)濾波器用來模擬說話人的聲道輸出[WEST96]。在電話系統(tǒng)中使用聲碼器,語音質(zhì)量不夠好。在VOIP中常用的語音編碼器是混合編碼器,它融入了波形編碼器和聲器的長處,它的另一特點(diǎn)是它工作在非常低的比特率(4-6Kbps)。混合編碼器采用合成分析(AbS)。
為了說明問題,考慮人的聲道產(chǎn)生的一個(gè)語音模式:當(dāng)人說話產(chǎn)生語音信號(hào)時(shí)就會(huì)發(fā)出濁音(如音素pa、da等)和清音(如音素sh、th)。激勵(lì)信號(hào)就是由輸入的語音信號(hào)導(dǎo)出的,其方法是使合成語音與輸入語音的差別非常小。LPC的用法、激勵(lì)的產(chǎn)生以及對合成分析(AbS)系統(tǒng)的誤差檢查均如圖4-1所示。 長話質(zhì)量編碼器在比特率高于8Kbps時(shí)容易實(shí)現(xiàn),如圖4-2所示。長話質(zhì)量的語音平均意見得分(MOS)必須在分或許分以上。傳統(tǒng)的PCN語音在比特率小于32 Kbps,語音質(zhì)量會(huì)嚴(yán)重惡化,在這里就不討論P(yáng)CN了;旌暇幋a和聲碼器在比特率相當(dāng)?shù)偷腗OS上的得分是可接受的。在現(xiàn)階段,大多數(shù)基于VOIP的編碼器的工作范圍在5.2~8kbps。研究表明,標(biāo)準(zhǔn)的編碼器在比特率為4 Kbps時(shí)能提供可接受的NOS得分,一些分用系統(tǒng)在4.8 Kbps的MOS上的得分為3.8。 矢量量化和碼激勵(lì)線性預(yù)測 一種較好的方法就是用預(yù)測存儲(chǔ)的最優(yōu)參數(shù)(碼元矢量)的碼本對輸入語音信號(hào)的表示矢量進(jìn)行編碼,這種技術(shù)稱為矢量量化(VQ,vector quantization)。 將VQ和AbS技術(shù)結(jié)合在一起會(huì)進(jìn)一步提高編碼性能。AbS VQ是技術(shù)構(gòu)成CELP的基礎(chǔ)。VQ和AbS VQ的主要區(qū)別在于進(jìn)行矢量量化碼簿搜索時(shí)采用的量化失真測量定義的不同[WONG96]。
http://baike.eccn.com/eewiki/index.php/%E8%AF%AD%E9%9F%B3CODEC