在語音編碼技術(shù)中,對(duì)語音質(zhì)量的評(píng)價(jià)是一個(gè)很重要的問題。如何評(píng)價(jià)語音編碼質(zhì)量也成為語音編碼領(lǐng)域所研究的一個(gè)重要課題。對(duì)此多年來人們提出了許多方法,歸納起來大致可分為兩類,即客觀評(píng)定方法和主觀評(píng)定方法。
客觀評(píng)定方法用客觀測(cè)量的手段來評(píng)價(jià)語音編碼的質(zhì)量,常用的方法有信噪比、加權(quán)信噪比、平均分段信噪比等。它們都是建立在度量均方誤差的基礎(chǔ)上,其特點(diǎn)是計(jì)算簡(jiǎn)單,但不能完全反映人對(duì)語音質(zhì)量的感覺。這個(gè)問題對(duì)于速率為16Kbit/s以下的中、低速率語音編碼尤為突出,因此主要適用于速率較高的波形編碼類型。
主觀評(píng)定方法符合人類聽話時(shí)對(duì)語音質(zhì)量的感覺,因而目前得到廣泛應(yīng)用。最主要的主觀評(píng)定方法是主觀評(píng)定等級(jí)(Subjective Opinion Scale),或稱平均評(píng)定得分(Mean Opinion Score,縮寫MOS)。MOS得分采用五級(jí)評(píng)分標(biāo)準(zhǔn),其方法是,由數(shù)十名試聽者在相同信道環(huán)境中試聽并給予評(píng)分,然后對(duì)評(píng)分進(jìn)行統(tǒng)計(jì)處理,求出平均得分。由于主觀和客觀上的種種原因,每次試聽所得的評(píng)分會(huì)有波動(dòng)。為了減小波動(dòng)的誤差,除了試聽者人數(shù)要足夠多之外,所測(cè)語音材料也要足夠豐富,試聽環(huán)境也應(yīng)盡量保持相同。
在這里要特別需要說明的是,試聽者對(duì)語音質(zhì)量的主觀感覺往往是和其注意力集中程度相聯(lián)系的,因而,對(duì)應(yīng)于主觀評(píng)定等級(jí),還有一個(gè)收聽注意力等級(jí)(Listening Effect Scale)。下表給出主觀評(píng)定等級(jí)的質(zhì)量等級(jí)、分?jǐn)?shù)和相應(yīng)的收聽注意力等級(jí)。
主觀評(píng)定等級(jí)表
質(zhì)量等級(jí) | 分?jǐn)?shù) | 收聽注意力等級(jí) |
優(yōu) | 5 | 可完全放松,不需要注意力 |
良 | 4 | 需要注意,但不需明顯集中注意力 |
滿意(正常) | 3 | 中等程度的注意力 |
差 | 2 | 需要集中注意力 |
劣 | 1 | 即使努力去聽,也很難聽懂 |
從用戶角度看,通常認(rèn)為MOS分4.0~4.5分為高質(zhì)量語音編碼,達(dá)到長(zhǎng)途電話網(wǎng)的質(zhì)量要求。MOS分3.5分左右稱作通信質(zhì)量,這時(shí)聽者能感覺到語音質(zhì)量有所下降,但不影響正常的通話,可以滿足多數(shù)通信系統(tǒng)使用要求。MOS分3.0分以下常稱為合成語音質(zhì)量,這種語音一般只有足夠高的可懂度,但是自然度較差,不容易識(shí)別講話者。
語音編碼技術(shù)標(biāo)準(zhǔn)的制定,對(duì)數(shù)字語音技術(shù)的實(shí)用化和發(fā)展起到了推動(dòng)作用。