百科解釋
預測編碼是根據(jù)離散信號之間存在著一定關(guān)聯(lián)性的特點,利用前面一個或多個信號預測下一個信號進行,然后對實際值和預測值的差(預測誤差)進行編碼。如果預測比較準確,誤差就會很小。在同等精度要求的條件下,就可以用比較少的比特進行編碼,達到壓縮數(shù)據(jù)的目的。 預測編碼中典型的壓縮方法有脈沖編碼調(diào)制(PCM,Pulse Code Modulation)、差分脈沖編碼調(diào)制(DPCM,Differential Pulse Code Modulation)、自適應差分脈沖編碼調(diào)制(ADPCM,Adaptive Differential Pulse Code Modulation)等,它們較適合于聲音、圖像數(shù)據(jù)的壓縮,因為這些數(shù)據(jù)由采樣得到,相鄰樣值之間的差相差不會很大,可以用較少位來表示。 一.PCM 脈沖編碼調(diào)制(PCM,pulse code modulation)是概念上最簡單、理論上最完善的編碼系統(tǒng)。它是最早研制成功、使用最為廣泛的編碼系統(tǒng),但也是數(shù)據(jù)量最大的編碼系統(tǒng)。 PCM的編碼原理比較直觀和簡單,原理框圖如圖04-01-1所示。在這個框圖中,它的輸入是模擬信號,首先經(jīng)過時間采樣,然后對每一樣值都進行量化,作為數(shù)字信號的輸出,即PCM樣本序列x(0),x(1),…,x(n)。圖中的“量化,編碼”可理解為“量化階大小(step-size)”生成器或者稱為“量化間隔”生成器。 圖04-01-1 PCM編碼框圖 量化有多種方法。最簡單的是只應用于數(shù)值,稱為標量量化,另一種是對矢量(又稱為向量)量化。標量量化可歸納成兩類:一類稱為均勻量化,另一類稱為非均勻量化。理論上,標量量化也是矢量量化的一種特殊形式。采用的量化方法不同,量化后的數(shù)據(jù)量也就不同。因此,可以說量化也是一種壓縮數(shù)據(jù)的方法。 下面介紹標量量化,矢量量化將在本章最后一節(jié)介紹。 (一)均勻量化 如果采用相等的量化間隔處理采樣得到的信號值,那么這種量化稱為均勻量化。均勻量化就是采用相同的“等分尺”來度量采樣得到的幅度,也稱為線性量化,如圖04-01-2所示。量化后的樣本值Y和原始值X的差 E=Y-X 稱為量化誤差或量化噪聲。 圖04-01-2 均勻量化 。ǘ┓蔷鶆蛄炕 用均勻量化方法量化輸入信號時,無論對大的輸入信號還是小的輸入信號一律都采用相同的量化間隔。為了適應幅度大的輸入信號,同時又要滿足精度要求,就需要增加量化間隔,這將導致增加樣本的位數(shù)。但是,有些信號(例如話音信號),大信號出現(xiàn)的機會并不多,增加的樣本位數(shù)就沒有充分利用。為了克服這個不足,就出現(xiàn)了非均勻量化的方法,這種方法也叫做非線性量化。 非線性量化的基本想法是,對輸入信號進行量化時,大的輸入信號采用大的量化間隔,小的輸入信號采用小的量化間隔,如圖04-01-3所示,這樣就可以在滿足精度要求的情況下用較少的位數(shù)來表示。量化數(shù)據(jù)還原時,采用相同的規(guī)則。 在語音信號的非線性量化中,采樣輸入信號幅度和量化輸出數(shù)據(jù)之間定義了兩種對應關(guān)系,一種稱為m律壓擴(m-law companding)算法,另一種稱為A律(A-law)壓擴算法。 圖04-01-3 非均勻量化 1.m 律壓擴 G.711標準建議的m律壓擴主要用在北美和日本等地區(qū)的數(shù)字電話通信中,按下面的式子(歸一化)確定量化輸入和輸出的關(guān)系: 式中:x為輸入信號幅度,規(guī)格化成 -1≤< /SPAN> x≤ 1; sgn(x)為x的極性,x<0時為-1,否則為1; m為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,取100≤ m≤ 500,現(xiàn)在多取 m =255。 由于m律壓擴的輸入和輸出關(guān)系是對數(shù)關(guān)系,所以這種編碼又稱為對數(shù)PCM。具體計算時,用m=255,可以把對數(shù)曲線變成8條折線以簡化計算過程。 2.A律壓擴 G.711標準建議的A律壓擴主要用在中國大陸和歐洲等地區(qū)的數(shù)字電話通信中,按下面的式子確定量化輸入和輸出的關(guān)系: 0 ≤ | x| ≤ 1/A 1/A < |x| ≤ 1 式中:x為輸入信號幅度,規(guī)格化成 -1 ≤< /SPAN > x ≤ 1; sgn(x)為x的極性,x<0時為-1,否則為1; A為確定壓縮量的參數(shù),它反映最大量化間隔和最小量化間隔之比,通常取A=87.6。 A律壓擴的前一部分是線性的,其余部分與m律壓擴相同。A律壓擴具有與m律壓擴相同的基本性能(在大信號區(qū)信噪比高于m律量化器,但在小信號區(qū)不如m律量化器)和實現(xiàn)方面的優(yōu)點,尤其是還可以用直線段很好地近似,以便于直接壓擴或數(shù)字壓擴,并易于與線性編碼格式相互轉(zhuǎn)換。具體計算時,A=87.56,為簡化計算,同樣把對數(shù)曲線部分變成13條折線。 對于采樣頻率為8 kHz,樣本精度為13比特、14比特或者16比特的輸入信號,使用m率壓擴編碼或者使用A率壓擴編碼,經(jīng)過PCM編碼器之后每個樣本的精度為8比特,輸出的數(shù)據(jù)率為64 kbps。這個數(shù)據(jù)就是CCITT推薦的G.711標準:話音頻率脈沖編碼調(diào)制(Pulse Code Modulation (PCM) of Voice Frequencies)。通常的聽覺主觀感覺認為8位壓擴量化有不低于12位均勻量化A/D的信噪比及動態(tài)范圍。 二.DPCM 在PCM系統(tǒng)中,原始的模擬信號經(jīng)過采樣后得到的每一個樣值都被量化成為數(shù)字信號。為了壓縮數(shù)據(jù),可以不對每一樣值都進行量化,而是預測下一樣值,并量化實際值與預測值之間的差值,這就是DPCM(Differential Pulse Code Modulation,差分脈沖編碼調(diào)制)。1952年貝爾(Bell)實驗室的C. C. Cutler取得了差分脈沖編碼調(diào)制系統(tǒng)的專利,奠定了真正實用的預測編碼系統(tǒng)的基礎(chǔ)。DPCM的組成如圖04-01-4,其中編碼器和解碼器分別完成對預測誤差量化值的熵編碼和解碼。 圖04-01-4 DPCM系統(tǒng)原理框圖 DPCM系統(tǒng)工作時,發(fā)送端先發(fā)送一個起始值x0,接著就只發(fā)送預測誤差值ek = xk – x^k,而預測值x^k可記為 x^k = f(x&#039;1,x&#039;2,…, x&#039; N,k), k > N (04-01-1) 式中k > N表示x&#039;1,x&#039;2,…, x&#039; N的時序在xk之前,為所謂因果型(Causal)預測,否則為非因果型預測。 接收端把接收到的量化后的預測誤差e^k 與本地算出的x^k相加,即得恢復信號x&#039;k。如果沒有傳輸誤差,則接收端重建信號x&#039;k與發(fā)送端原始信號xk之間的誤差為: xk - x&#039; k = x k - ( x^k + e^k ) = ( xk - x^k ) - e^k = ek - e^k = qk (04-01-2) 這正是發(fā)送端量化器產(chǎn)生的量化誤差,即整個預測編碼系統(tǒng)的失真完全由量化器產(chǎn)生。因此,當xk已經(jīng)是數(shù)字信號時,如果去掉量化器,使e^k = ek,則qk = 0,即x&#039;k = xk 。這表明,這類不帶量化器的DPCM系統(tǒng)也可用于無損編碼。但如果量化誤差qk ≠ 0,則x&#039;k ≠xk,為有損編碼。 如果預測方程式(04-01-2)的右方是各個x&#039;i的線性函數(shù),即 N x&#039; k = Σai(k) x&#039; i k > N (04-01-3) i=1 即得常用的線性預測,又稱線性預測編碼(LPC,Linear Predictive Coding)。LPC在語音處理中得到廣泛應用,并在此基礎(chǔ)上發(fā)展了許多算法,典型的有:多脈沖線性預測編碼(MPLPC),規(guī)則脈沖激勵編碼(RPE),碼激勵線性預測(CELP),代數(shù)激勵線性預測(ACELP),矢量和激勵線性預測(VSELP),QCELP(Qualcomm CELP,變速率CELP),低延時碼激勵線性預測(LD-CELP),共軛結(jié)構(gòu)代數(shù)激勵線性預測(CS-ACELP),混合激勵線性預測(MELP),間隔同步更新碼激勵線性預測(PSI-CELP),松弛碼激勵線性預測(RCELP),殘差激勵線性預測(RELP),規(guī)則脈沖激勵長時預測(RPE-LTP)等。 在DPCM中,“1位量化”的特殊情況稱為增量調(diào)制(Δ調(diào)制)。 為了能夠正確恢復被壓縮的信號,不僅在接收端有一個與發(fā)送端相同的預測器,而且其輸入信號也要相同(都是x&#039;k,而不是xk),動作也與發(fā)送端的預測器環(huán)路(即發(fā)送端本地的反量化和解碼部分)完全相同。 在圖像信號中應用DPCM時,用作預測的像素和被預測的像素可以在同一行,也可以在不同行(同一幀),甚至在不同幀,分別稱為一維預測、二維預測和三維預測。聲音信號中的預測只是一維預測。 DPCM的優(yōu)點是算法簡單,容易硬件實現(xiàn),缺點是對信道噪聲很敏感,會產(chǎn)生誤差擴散。即某一位碼出錯,對圖像一維預測來說,將使該像素以后的同一行各個像素都產(chǎn)生誤差;而對二維預測,該碼引起的誤差還將擴散到以下的各行。這樣,將使圖像質(zhì)量大大下降。同時,DPCM的壓縮率也比較低。隨著變換編碼的廣泛應用,DPCM的作用已很有限。 三.ADPCM 進一步改善量化性能或壓縮數(shù)據(jù)率的方法是采用自適應量化或自適應預測,即自適應脈沖編碼調(diào)制(ADPCM)。它的核心想法是:①利用自適應的思想改變量化階的大小,即使用小的量化階(step-size)去編碼小的差值,使用大的量化階去編碼大的差值,②使用過去的樣本值估算下一個輸入樣本的預測值,使實際樣本值和預測值之間的差值總是最小。它的編碼簡化框圖如圖04-01-5所示。 圖04-01-5 ADPCM方框圖 1.自適應量化 在一定量化級數(shù)下減少量化誤差或在同樣的誤差條件下壓縮數(shù)據(jù),根據(jù)信號分布不均勻的特點,希望系統(tǒng)具有隨輸入信號的變化區(qū)間足以保持輸入量化器的信號基本均勻的能力,這種能力叫自適應量化。 自適應量化必須有對輸入信號的幅值進行估值的能力,有了估值才能確定相應的改變量。若估值在信號的輸入端進行,稱前饋自適應;若在量化輸出端進行,稱反饋自適應。信號的估值必須簡單,占用時間短,才能達到實時處理的目的。 2.自適應預測 預測參數(shù)的最佳化依賴信源的特征,要得到最佳預測參數(shù)顯然是一件繁瑣的工作。而采用固定的預測參數(shù)往往又得不到較好的性能。為了能使性能較佳,又不致于有太大的工作量,可以采用自適應預測。 為了減少計算工作量,預測參數(shù)仍采用固定的,但此時有多組預測參數(shù)可供選擇,這些預測參數(shù)根據(jù)常見的信源特征求得。編碼時具體采用哪組預測參數(shù)需根據(jù)特征來自適應地確定。為了自適應地選擇最佳參數(shù),通常將信源數(shù)據(jù)分區(qū)間編碼,編碼時自動地選擇一組預測參數(shù),使該實際值與預測值的均方誤差最小。隨著編碼區(qū)間的不同,預測參數(shù)自適應地變化,以達到準最佳預測。 四.幀間預測編碼 幀間預測編碼是利用視頻圖像幀間的相關(guān)性,即時間相關(guān)性,來達到圖像壓縮的目的,廣泛用于普通電視、會議電視、視頻電話、高清晰度電視的壓縮編碼。 在圖像傳輸技術(shù)中,活動圖像特別是電視圖像是關(guān)注的主要對象;顒訄D像是由時間上以幀周期為間隔的連續(xù)圖像幀組成的時間圖像序列,它在時間上比在空間上具有更大的相關(guān)性。大多數(shù)電視圖像相鄰幀間細節(jié)變化是很小的,即視頻圖像幀間具有很強的相關(guān)性,利用幀所具有的相關(guān)性的特點進行幀間編碼,可獲得比幀內(nèi)編碼高得多的壓縮比。對于靜止圖像或活動很慢的圖像,可以少傳一些幀,如隔幀傳輸,未傳輸?shù)膸,利用接收端的幀存儲器中前一幀的?shù)據(jù)作為該幀數(shù)據(jù),對視覺沒有什么影響。因為人眼對圖像中靜止或活動慢的部分,要求有較高的空間分辨率,而對時間分辨率的要求可低些。這種方法叫幀重復方法,廣泛應用于視頻電話、視頻會議系統(tǒng)中,其圖像幀速率一般為1~15幀/秒。 采用預測編碼的方法消除序列圖像在時間上的相關(guān)性,即不直接傳送當前幀的像素值,而是傳送x和其前一幀或后一幀的對應像素x&#039; 之間的差值,這稱為幀間預測。當圖像中存在著運動物體時,簡單的預測不能收到好的效果,例如在圖04-01-6中當前幀與前一幀的背景完全一樣,只是小球平移了一個位置,如果簡單地以第k-1幀像素值作為k幀的預測值,則在實線和虛線所示的圓內(nèi)的預測誤差都不為零。如果已經(jīng)知道了小球運動的方向和速度,可以從小球在k-1幀的位置推算出它在k幀中的位置來,而背景圖像(不考慮被遮擋的部分)仍以前一幀的背景代替,將這種考慮了小球位移的k-1幀圖像作為k幀的預測值,就比簡單的預測準確得多,從而可以達到更高的數(shù)據(jù)壓縮比。這種預測方法稱為具有運動補償?shù)膸g預測。 圖 04-01-6 幀間預測與具有運動補償?shù)膸g預測 具有運動補償?shù)膸g預測編碼是視頻壓縮的關(guān)鍵技術(shù)之一,它包括以下幾個步驟:首先,將圖像分解成相對靜止的背景和若干運動的物體,各個物體可能有不同的位移,但構(gòu)成每個物體的所有像素的位移相同,通過運動估值得到每個物體的位移矢量;然后,利用位移矢量計算經(jīng)運動補償后的預測值;最后對預測誤差進行量化、編碼、傳輸,同時將位移矢量和圖像分解方式等信息送到接收端。圖04-01-7示出了具有運動補償?shù)膸g預測器的原理框圖。 圖04-01-7 具有運動補償?shù)膸g預測器功能框圖 在具有運動補償?shù)膸g預測編碼系統(tǒng)中,對圖像靜止區(qū)和不同運動區(qū)的實時完善分解和運動矢量計算是較為復雜和困難的。在實際實現(xiàn)時經(jīng)常采用的是像素遞歸法和塊匹配法兩種簡化的辦法。 像素遞歸法的具體作法是,仍需通過某種較為簡單的方法首先將圖像分割成運動區(qū)和靜止區(qū)。在靜止區(qū)內(nèi)像素的位移為零,不進行遞歸運算;對運動區(qū)內(nèi)的像素,利用該像素左邊或正上方像素的位移矢量D作為本像素的位移矢量,然后用前一幀對應位置上經(jīng)位移D后的像素值作為當前幀中該像素的預測值。如果預測誤差小于某一閾值,則認為該像素可預測,無需傳送信息;如果預測誤差大于該閾值,編碼器則需傳送量化后的預測誤差、以及該像素的地址,收、發(fā)雙方各自根據(jù)量化后的預測誤差更新位移矢量。由此可見,像素遞歸法是對每一個像素根據(jù)預測誤差遞歸地給出一個估計的位移矢量,因而不需要單獨傳送位移矢量給接收端。 塊匹配法是另一種更為簡單的運動估值方法。它將圖像劃分為許多子塊,并認為子塊內(nèi)所有像素的位移量是相同的,這意味著將每個子塊視為一個“運動物體”。對于某一時間t,圖像幀中的某一子塊如果在另一時間t-t1的幀中可以找到若干與其十分相似的子塊,則稱其中最為相似的子塊為匹配塊,并認為該匹配塊是時間t-t1的幀中相應子塊位移的結(jié)果。位移矢量由兩幀中相應子塊的坐標決定。 考慮到一定時間間隔內(nèi)物體可能的運動速度、運動范圍和匹配搜索所需的計算量,在匹配搜索時一般僅在一個有限范圍內(nèi)進行。假設(shè)在給定時間間隔內(nèi)最大可能的水平和垂直位移為d h和d v個像素,則搜索范圍SR為 其中M、N為子塊的水平和垂直像素數(shù)。 在塊匹配方法中需要解決兩個問題:一是確定判別兩個子塊匹配的準則;二是尋找計算量最少的匹配搜索算法。判斷兩個子塊相似程度的準則可以利用兩個塊間歸一化的二維互相關(guān)函數(shù)、兩子塊間亮度的均方差MSE或兩子塊間亮度差絕對值的均值MAD等。通過對不同判別準則的比較研究表明,各種判別準則對位移矢量的估值精度影響差別不是很大。由于MAD準則的計算不含有乘法和除法運算而成為最常使用的匹配判別準則。MAD準則定義如下: 其中Xk和Xk-1分別表示圖像在第k幀和第k-1幀的像素值。當MAD最小時,表示兩個子塊匹配。 對于匹配搜索算法,最簡單和直接的方法就是全搜索方式,即將第k-1幀中的子塊在整個搜索區(qū)內(nèi)逐個像素移動,每移動一次計算一次判決函數(shù)。總的移動次數(shù)為 (2d h + 1)(2d v + 1)。當d h = d v = 6時,總的計算次數(shù)為169。顯然,全搜索的運算量是相當大的。為了加快搜索過程,人們提出了許多不同的搜索方法,其中應用較廣的有二維對數(shù)法、三步法、共軛方向法和正交搜索法。這幾種方法都基于如下的假設(shè):當偏離最小誤差方向時,判決函數(shù)是單調(diào)上升的,搜索總沿著判決函數(shù)值減小的方向進行。上述幾種方案所需的搜索步驟和計算點數(shù)略有差異,但基本思路是一致的。 通過上面介紹的兩種運動矢量估值方法可以看出,像素遞歸法對每一個像素給出一個估計的位移矢量,因而對較小面積物體的運動估值較為精確。但像素遞歸法在估值時需要進行疊代運算,從而存在著收斂速度和穩(wěn)定性問題。塊匹配法對同一子塊內(nèi)位移量不同的像素只能給出同一個位移估值,限制了對每一像素的估值精度。但對于面積較大的運動物體而言,采用塊匹配法的預測要比采用像素遞歸法的預測效果好。另外,從軟硬件實現(xiàn)角度看,塊匹配算法相對簡單,在實際活動圖像壓縮編碼系統(tǒng)中得到較為普遍的應用。 五.活動圖像幀間內(nèi)插 在具有運動補償?shù)念A測編碼系統(tǒng)中,利用了活動圖像幀間信息的相關(guān)性,通過對相鄰幀圖像的預測誤差進行編碼而達到壓縮數(shù)據(jù)的目的。運動補償技術(shù)的引入,大大提高了預測精度,使傳輸每一幀圖像的平均數(shù)據(jù)量進一步降低。在此系統(tǒng)中圖像的傳輸幀率并沒有變化,仍與編碼前的幀率一樣。然而在某些應用場合如可視電話、視頻會議等,對圖像傳輸幀率的要求可適當降低,這就為另外一種稱為幀間內(nèi)插的活動圖像壓縮編碼方法提供了可能。 活動圖像的幀間內(nèi)插編碼是在系統(tǒng)發(fā)送端每隔一段時間丟棄一幀或幾幀圖像,而在接收端再利用圖像的幀間相關(guān)性將丟棄的幀通過內(nèi)插恢復出來,以防止幀率下降引起閃爍和動作不連續(xù);謴蛠G棄幀的一個簡單辦法是利用線性內(nèi)插,設(shè)x(i, j), y(i, j)分別代表兩個傳輸幀中相同空間位置上像素的亮度,在中間第n個內(nèi)插幀對應位置的亮度z(i, j) 可用如下的內(nèi)插公式: n=1,2,3,……N-1 其中N為兩個傳輸幀之間的幀間隔數(shù)。 簡單線性幀間內(nèi)插的缺點在于當圖像中有運動物體時,兩個傳輸幀在物體經(jīng)過的區(qū)域上不再一一對應,因而引起圖像模糊。如圖04-01-8所示,為解決這一問題可采用帶有運動補償?shù)膸g內(nèi)插。具有運動補償?shù)膸g內(nèi)插和幀間預測都需要進行運動估值,但二者的目的和運動估值不準確所帶來的影響不完全相同。 圖04-01-8 幀間內(nèi)插示意圖 在幀間預測中引入運動補償?shù)哪康氖菫榱藴p少預測誤差,從而提高編碼效率。運動估值的不準確會使預測誤差加大,從而使傳輸?shù)臄?shù)據(jù)率上升,但接收端據(jù)此位移矢量和預測誤差解碼不會引起圖像質(zhì)量下降。而在幀間內(nèi)插中引入運動補償?shù)哪康,是使恢復的?nèi)插幀中的運動物體不致因為內(nèi)插而引起太大的圖像質(zhì)量下降。這是由于在丟棄幀內(nèi)沒有傳送任何信息,要確定運動物體在丟棄幀中的位置必須知道該物體的運動速度。運動估值的不準確,將導致內(nèi)插出來的丟棄幀圖像的失真。另外,在幀間內(nèi)插中的位移估值一般要對運動區(qū)的每一個像素進行,而不是對一個子塊;否則,內(nèi)插同樣會引起運動物體邊界的模糊。因此,在幀間內(nèi)插中較多使用能夠給出單個像素位移矢量的像素遞歸法。 其他還有閾值法(只傳送像素亮度的幀間差值超過一定閾值的像素)、幀內(nèi)插(對于活動緩慢的圖像,利用前后兩幀圖像進行內(nèi)插,得到預測圖像,然后對幀差信號進行編碼)、運動估計與補償?shù)取?
移動通信網(wǎng) | 通信人才網(wǎng) | 更新日志 | 團隊博客 | 免責聲明 | 關(guān)于詞典 | 幫助