百科解釋
目錄·綜述·線性預(yù)測(cè)編碼的早期歷史·線性預(yù)測(cè)編碼系數(shù)表示·應(yīng)用 線性預(yù)測(cè)編碼(LPC)是主要用于音頻信號(hào)處理與語(yǔ)音處理中根據(jù)線性預(yù)測(cè)模型的信息用壓縮形式表示數(shù)字語(yǔ)音信號(hào)譜包絡(luò)(en:spectral envelope)的工具。它是最有效的語(yǔ)音分析技術(shù)之一,也是低位速下編碼方法高質(zhì)量語(yǔ)音最有用的方法之一,它能夠提供非常精確的語(yǔ)音參數(shù)預(yù)測(cè)。 綜述 線性預(yù)測(cè)編碼的基礎(chǔ)是假設(shè)聲音信號(hào)(濁音)是音管末端的蜂鳴器產(chǎn)生的,偶爾伴隨有嘶嘶聲與爆破聲(齒擦音與爆破音)。盡管這看起來(lái)有些原始,但是這種模式實(shí)際上非常接近于真實(shí)語(yǔ)音產(chǎn)生過(guò)程。聲帶之間的聲門產(chǎn)生不同強(qiáng)度(音量)與頻率(音調(diào))的聲音,喉嚨與嘴組成共鳴聲道。嘶嘶聲與爆破聲通過(guò)舌頭、嘴唇以及喉嚨的作用產(chǎn)生出來(lái)。 線性預(yù)測(cè)編碼通過(guò)估計(jì)共振峰、剔除它們?cè)谡Z(yǔ)音信號(hào)中的作用、估計(jì)保留的蜂鳴音強(qiáng)度與頻率來(lái)分析語(yǔ)音信號(hào)。剔除共振峰的過(guò)程稱為逆濾波,經(jīng)過(guò)這個(gè)過(guò)程剩余的信號(hào)稱為殘余信號(hào)(en:residue)。 描述峰鳴強(qiáng)度與頻率、共鳴峰、殘余信號(hào)的數(shù)字可以保存、發(fā)送到其它地方。線性預(yù)測(cè)編碼通過(guò)逆向的過(guò)程合成語(yǔ)音信號(hào):使用蜂鳴參數(shù)與殘余信號(hào)生成源信號(hào)、使用共振峰生成表示聲道的濾波器,源信號(hào)經(jīng)過(guò)濾波器的處理就得到語(yǔ)音信號(hào)。 由于語(yǔ)音信號(hào)隨著時(shí)間變化,這個(gè)過(guò)程是在一段段的語(yǔ)音信號(hào)幀上進(jìn)行處理的。通常每秒 30 到 50 幀的速度就能對(duì)可理解的信號(hào)進(jìn)行很好的壓縮。 線性預(yù)測(cè)編碼的早期歷史 根據(jù)斯坦福大學(xué) Robert M. Gray 的說(shuō)法,線性預(yù)測(cè)編碼起源于 1966 年,當(dāng)時(shí) NTT 的 S. Saito 和 F. Itakura 描述了一種自動(dòng)音素識(shí)別的方法,這種方法第一次使用了針對(duì)語(yǔ)音編碼的最大似然估計(jì)實(shí)現(xiàn)。1967 年,John Burg 略述了最大熵的實(shí)現(xiàn)方法。1969 年 Itakura 與 Saito 提出了部分相關(guān)(en:partial correlation)的概念, May Glen Culler 提議進(jìn)行實(shí)時(shí)語(yǔ)音壓縮,B. S. Atal 在美國(guó)聲學(xué)協(xié)會(huì)年會(huì)上展示了一個(gè) LPC 語(yǔ)音編碼器。1971 年 Philco-Ford 展示了使用 16 位 LPC 硬件的實(shí)時(shí) LPC 并且賣出了四個(gè)。 1972 年 ARPA 的 Bob Kahn 與 Jim Forgie (en:Lincoln Laboratory, LL) 以及 Dave Walden (BBN Technologies) 開始了語(yǔ)音信息包的第一次開發(fā),這最終帶來(lái)了 Voice over IP 技術(shù)。根據(jù) Lincoln Laboratory 的非正式歷史資料記載,1973 年 Ed Hofstetter 實(shí)現(xiàn)了第一個(gè) 2400 位/秒 的實(shí)時(shí) LPC。1974 年,第一個(gè)雙向?qū)崟r(shí) LPC 語(yǔ)音包通信在 Culler-Harrison 與 Lincoln Laboratories 之間通過(guò) ARPANET 以 3500 位/秒 的速度實(shí)現(xiàn)。1976 年,第一次 LPC 會(huì)議通過(guò) ARPANET 使用 Network Voice Protocol 在Culler-Harrison、ISI、SRI 與 LL 之間以 3500 位/秒 的速度實(shí)現(xiàn)。最后在 1978 年,BBN 的 Vishwanath et al. 開發(fā)了第一個(gè)變速 LPC 算法。 線性預(yù)測(cè)編碼系數(shù)表示 線性預(yù)測(cè)編碼經(jīng)常用來(lái)傳輸頻譜包絡(luò)信息,這樣它就可以容忍傳輸誤差。由于直接傳輸濾波器系數(shù)(參見線性預(yù)測(cè)中系數(shù)定義)對(duì)于誤差非常敏感,所以人們不希望直接傳輸濾波器系數(shù)。換句話說(shuō),一個(gè)小的誤差不會(huì)扭曲整個(gè)頻譜或使整個(gè)頻譜質(zhì)量下降,但是一個(gè)小的誤差可能使預(yù)測(cè)濾波器變得不穩(wěn)定。 有許多更加高級(jí)的表示方法,如對(duì)數(shù)面積比(en:log area ratio,LAR)、線譜對(duì)(en:line spectral pairs,LSP) 分解以及反射系數(shù)等。在這些方法中,LSP 由于它能夠保證預(yù)測(cè)器的穩(wěn)定性、并且小的系數(shù)偏差帶來(lái)的譜誤差也是局部的這些特性,所以得到了廣泛應(yīng)用。 應(yīng)用 線性預(yù)測(cè)編碼通常用于語(yǔ)音的重新合成,它是電話公司使用的聲音壓縮格式,如 GSM 標(biāo)準(zhǔn)就在使用這種格式。它還用作安全無(wú)線通信中的格式,在安全的無(wú)線通信中,聲音必須進(jìn)行數(shù)字化、加密然后通過(guò)狹窄的語(yǔ)音信道傳輸。 線性預(yù)測(cè)編碼合成也可以用于構(gòu)建聲音合成器,樂器用作從歌手聲音預(yù)測(cè)得到的時(shí)變?yōu)V波器的激勵(lì)信號(hào),這在電子音樂中有一定的流行。 1980年流行的 Speak & Spell 教育玩具中使用了一個(gè) 10 階的線性預(yù)測(cè)編碼。 在 FLAC 音頻編解碼器中使用了 0 到 4 階的線性預(yù)測(cè)編碼預(yù)測(cè)器。
移動(dòng)通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團(tuán)隊(duì)博客 | 免責(zé)聲明 | 關(guān)于詞典 | 幫助