基于龍芯3B的H.264解碼器的向量化

摘要:本文實現(xiàn)了ffmpeg解碼器到龍芯3B平臺的移植,并針對龍芯3B所支持的向量擴(kuò)展指令,對ffmpeg解碼器進(jìn)行了向量化。實驗結(jié)果表明:實現(xiàn)向量化的ffmpeg解碼器,其性能比使用GCC向量化編譯得到的ffmpeg解碼器具有更好的性能,而且性能提升的比率比在一些商業(yè)平臺上更大。

關(guān)鍵詞:H.264;ffmpeg;解碼器;Godson3B;向量化

0 引言

當(dāng)今社會已經(jīng)步入信息時代,傳統(tǒng)的信息載體和通信方式已經(jīng)無法滿足人們對信息的需求。而實驗表明:相比較語音和抽象數(shù)據(jù),人類接受的信息更多是以圖片和視頻方式為載體的。其中視頻信息具有直觀、具體和高效的特點,這也就決定了視頻通信技術(shù)將成為信息時代的重要技術(shù)之一。

由于視頻的數(shù)據(jù)量巨大,而存儲視頻的資源通常是非常有限的,因而對視頻進(jìn)行壓縮編碼,以減少存儲資源的消耗,非常必要。然而,通常情況下,使用的壓縮算法的復(fù)雜度越高,壓縮比率越高,視頻播放時的解碼速度就會越低。因而在提高編碼壓縮率的同時,也需要對解碼器進(jìn)行相應(yīng)的優(yōu)化,以提高視頻解碼器在目標(biāo)平臺上的性能。本文就實現(xiàn)了ffmpeg解碼器在龍芯3B上的移植與向量化,提高了該解碼器在龍芯3B上的性能。

1 視頻編/解碼與龍芯3B

1.1 視頻編/解碼

目前,成熟的壓縮編/解碼方法有很多。其中H.261、MPEG-1、MPEG-3和H.263采用了第一代壓縮編碼方法,如預(yù)測編碼、變換編碼、熵編碼以及運動補(bǔ)償;而MPEG-4和H.264采用了第二代的壓縮編碼方法,如分段編碼和基于模型或?qū)ο蟮木幋a等。

視頻壓縮編碼的主要目的是減少存儲視頻所占用的資源,而解碼技術(shù)的目標(biāo)則是提高解碼的速度,從而提高視頻播放的流暢性。常見的基于H.264編碼方法的軟解碼器包括CoreAVC、ffmpeg和JM等。其中JM是H.264官方網(wǎng)站提供的編/解碼器,集合了各種編/解碼算法,而且代碼的結(jié)構(gòu)清晰,很適合應(yīng)用于對視頻編/解碼技術(shù)的研究。而CoreAVC解碼器則主要用于商用,其解碼速率比ffmpeg快50%以上。ffmpeg是開源的解碼器,而且性能相對較好,很多開源項目都直接或間接地使用了ffmpeg,如mplayer播放器等。通過對性能以及開源特性的綜合考慮,本文選擇ffmlpeg作為移植和向量化對象。

1.2 龍芯3B體系結(jié)構(gòu)

龍芯3B處理器在兼容了MIPS64指令集的同時,實現(xiàn)了針對多媒體應(yīng)用的向量擴(kuò)展指令,這對視頻編/解碼應(yīng)用性能的提升有很大的幫助。

龍芯3B提供了256位的向量寄存器并實現(xiàn)包括256位向量訪存在內(nèi)的向量擴(kuò)展指令。使用向量指令可以一次完成32個字節(jié)寬度數(shù)據(jù)的操作。而這樣的結(jié)構(gòu)和指令集設(shè)計,使得龍芯3B非常適合于實現(xiàn)大規(guī)模相同類型數(shù)據(jù)的相同運算,比如矩陣乘法運算和FFT運算,以及視頻編/解碼運算等。

不過由于ffmpeg并未實現(xiàn)對龍芯3B平臺的支持,因而需要完成ffmpeg到龍芯3B的移植工作。本文之前也有一些ffmpeg到其他平臺的移植工作和針對龍芯平臺的移植與優(yōu)化工作,都取得了不錯效果。

2 基于龍芯3B的ffmpeg移植

2.1 ffmpeg的移植

ffmpeg解碼器提供了對不同目標(biāo)平臺的支持,而與這些平臺相關(guān)的文件都保存在以該目標(biāo)平臺命名的目錄下。例如,ffmpeg解碼器實現(xiàn)了對arm和sparc平臺,以及x86平臺的支持。

對于實現(xiàn)ffmpeg解碼器對龍芯3B的支持,主要完成以下5個步驟:

(1)修改configure配置文件,增加與龍芯體系結(jié)構(gòu)相關(guān)的配置選項;

(2)新建龍芯專用文件夾godson,將龍芯體系結(jié)構(gòu)相關(guān)的文件都存放于該文件夾中;

(3)將godson文件夾下新增的需要編譯的文件添加到Makefile中;

(4)增加與dsputil_init類似的新的初始化函數(shù)dsputil_init_godson;

(5)在頭文件中添加新增函數(shù)的聲明。

針對龍芯3B的ffmpeg移植工作相對比較簡單,因而本文重點介紹針對龍芯3B的向量化工作。

2.2 移植后的ffmpeg的性能比較

本節(jié)對移植后的ffmpeg解碼器進(jìn)行了性能測試,對使用龍芯3B向量擴(kuò)展指令和不使用龍芯3B擴(kuò)展指令兩種情況下的性能進(jìn)行了比較。測試時使用支持龍芯3B擴(kuò)展指令集的GCC編譯器進(jìn)行編譯,并且開啟-ftree-vectorize和-march=godson3b編譯選項來支持龍芯 3B擴(kuò)展指令。使用的測試用例為視頻“walk_vag_640x480_qp26.264”,測試結(jié)果如表1所示。

從表1的測試結(jié)果中可以看出,使用龍芯3B的向量擴(kuò)展指令可以提高ffmpeg解碼器在龍芯3B上的性能,用來測試的視頻的解碼時間減少了約466s。盡管如此,由于GCC編譯器本身自動向量化能力的限制,ffmpeg解碼器的性能提升還是比較有限的,因而針對龍芯3B的指令集對移植后的ffmpeg解碼器進(jìn)行向量化,就成為了進(jìn)一步提高性能的重要工作。

3 ffmpeg的向量化

3.1 ffmpeg的oprofile測試

使用oprofile對ffmpeg解碼視頻“問道武當(dāng)002.mkv”的過程進(jìn)行測試,測試結(jié)果如表2所示。表2列出了各個函數(shù)的調(diào)用過程以及運行時間所占的比重。而針對ffmpeg解碼器進(jìn)行的向量化工作,則主要是針對oprofile測試結(jié)果中執(zhí)行時間較長、運行比重較大的幾個函數(shù)的向量化。

作者:裴曉航 何頌頌 中國科學(xué)技術(shù)大學(xué) 來源:現(xiàn)代電子技術(shù)


微信掃描分享本文到朋友圈
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
  • 1、回復(fù)“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書
  • 2、回復(fù)“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21
  • 3、回復(fù)“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書
  • 4、回復(fù)“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》
  • 5、回復(fù)“ZGDX”免費領(lǐng)取《中國電信5GNTN技術(shù)白皮書
  • 6、回復(fù)“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解
  • 7、回復(fù)“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書
  • 8、回復(fù)“5GX3”免費領(lǐng)取《R1623501-g605G的系統(tǒng)架構(gòu)1
  • 本周熱點本月熱點

     

      最熱通信招聘

    業(yè)界最新資訊


      最新招聘信息