0 引言
語音作為人類交流信息的主要手段之一,在通信系統(tǒng)中占據(jù)重要的地位。隨著數(shù)字通信技術(shù)的發(fā)展和多樣化商業(yè)應(yīng)用的需求,語音信號處理成了數(shù)字通信中最重要、最基本的組成之一。雖然現(xiàn)在已經(jīng)有光纖通信等大容量通信手段,但是,在移動通信、衛(wèi)星通信、軍事通信中,節(jié)省帶寬仍然非常重要。傳統(tǒng)的PCM等占用大量信道帶寬的語音編碼技術(shù),已遠(yuǎn)遠(yuǎn)不能滿足現(xiàn)代數(shù)字通信的需要。歐美、日本等國一直在努力通過降低語音編碼速率來擴大通信系統(tǒng)的容量。在我國,對低速率語音編碼技術(shù)也有迫切的需要,如保密通信、短波信道、水聲信道等對碼率要求嚴(yán)格的應(yīng)用場合。但現(xiàn)有語音編碼的國際標(biāo)準(zhǔn)傳輸速率都較高(一般在8 Kb/s以上),而現(xiàn)有的一些低速率語音編碼方案的話音質(zhì)量又不盡人意。因此,如何有效地降低編碼速率將一直是重要的研究課題。多帶激勵語音聲碼器(MultiBand Excited,MBE)在2.4~4.8 Kb/s速率上能合成出音質(zhì)比傳統(tǒng)聲碼器好得多的語音,而且具有較好的自然度和容忍環(huán)境噪聲的能力,是目前這一速率范圍內(nèi)比較理想的參數(shù)編碼方案。
1 MBE編碼(語音分析)
1.1 MBE模型
美國MIT大學(xué)林肯實驗室1988年提出了多帶激勵(MBE)語音編碼方案。
MBE語音模型如圖1所示,把激勵頻譜分成許多互不交迭的頻帶,對每一頻帶分別進(jìn)行二元清、濁音判決,這就是多帶激勵的由來。這樣就允許特定語音幀的激勵信號可以是周期能量(濁音)和噪聲能量(清音)的混合,在一定程度上增加了模擬激勵的自由度,因而使MBE語音模型能產(chǎn)生高質(zhì)量的語音,而且使MBE語音模型有更強的抗背景噪聲能力。
1.2參數(shù)提取算法
MBE語音模型主要參數(shù)包括:基音周期;各諧波帶清濁音判決信息;各諧波對應(yīng)譜包絡(luò)幅度。
按照MBE算法原理圖(圖2),參數(shù)提取算法的實現(xiàn)分為如下四個步驟:
(1)基音周期粗估
基音周期的粗估采用在時域內(nèi)進(jìn)行的方法。因為實際計算中證明,頻域中計算量特別大,并不好用。為解決這一問題,本文采用時域自相關(guān)函數(shù)來估計基音周期的方法,這個方法的計算量比頻域法少得多,但只能在基音周期的整數(shù)點值上進(jìn)行。MBE算法就是對每一幀語音信號,在基音周期預(yù)估值范圍內(nèi)(一般在P=20~147之間),計算誤差函數(shù)Ep(P),使誤差函數(shù)最小的頻率值P就是基音估計的粗估值P1。誤差函數(shù):
(2)基音周期細(xì)搜索
基音周期的細(xì)搜索采用在頻域內(nèi)進(jìn)行的方法,可以進(jìn)一步在頻域范圍內(nèi)進(jìn)行非整數(shù)基音周期的估計,從而提高基音周期估計的精度。即在粗估基音P1鄰域內(nèi)進(jìn)行細(xì)搜索,確定更精確的基音周期候選值Pt:P1-9/8,P1-7/8,…,P1+7/8,P1+9/8。通過上述算法,可以得到真正基音周期P0。
(3)諧波帶清濁音判決(U/V判決)
研究證明,清音帶與濁音帶不會頻繁交替,而是保持著一定的連續(xù)性,這樣在編碼速率較低時,可以將相鄰的幾個諧波頻帶劃分在一起,共同進(jìn)行清濁音判決。本文將相鄰的3個諧頻帶劃分在一起,整個頻帶采用最多分成12個帶的方法進(jìn)行清濁判決。判決閾值采用自適應(yīng)值,如果擬合誤差小于閾值,判為濁音,否則判為清音。
(4)譜幅度估計
確定U/V后,就可以對各諧波的包絡(luò)幅度做最后的確定:
2 MBE解碼(語音合成)
多帶激勵模型語音合成的方法大體分為兩類,即頻域合成法與時域合成法。頻域合成法先用收到的參數(shù)構(gòu)成重建語音譜,然后利用傅里葉反變換得到時域序列,相當(dāng)于分析過程的逆過程。這種方法比較直接,但不能保證合成語音基音周期的平滑變化,特別當(dāng)幀長比較長的時候會產(chǎn)生基音周期跳變,使合成語音不自然。時域合成法能利用插值實現(xiàn)幀與幀之間基音周期平滑過渡,合成出更自然的語音。因此在實際的MBE算法中都采用這種方法。如圖3所示,濁音Sv(n)與清音SU(n)是分開合成的,最后將他們相加,形成完整的合成語音SR(n)。
來源:維庫開發(fā)網(wǎng)