近日,中國移動研究院聯(lián)合知存科技完成基于NOR-Flash存算一體芯片的視頻超分技術(shù)驗證,為存算一體芯片在算力機頂盒、AR/VR終端、邊緣視頻解碼器等場景支撐高效視覺AI應(yīng)用奠定基礎(chǔ)。視頻超分技術(shù)是近年來愈發(fā)受到學(xué)術(shù)界和產(chǎn)業(yè)界關(guān)注的一種圖像處理技術(shù),旨在將低分辨率的視頻或圖像轉(zhuǎn)化為高分辨率圖像,以提高圖像的質(zhì)量。視頻超分技術(shù)在許多領(lǐng)域有廣泛應(yīng)用,如電視和電影產(chǎn)業(yè)、監(jiān)控系統(tǒng)、醫(yī)學(xué)圖像處理等。目前視頻超分技術(shù)主要采用深度學(xué)習(xí)方法實現(xiàn),通過在大量高分辨率和低分辨率圖像對上進行訓(xùn)練,學(xué)習(xí)到圖像的映射關(guān)系,從而能夠更準(zhǔn)確地重建細(xì)節(jié)豐富的高分辨率圖像。視頻超分算法模型計算并行度高,數(shù)據(jù)搬運頻繁,計算設(shè)備的運行伴隨著大量能耗,給視頻超分應(yīng)用(尤其是端側(cè))帶來巨大挑戰(zhàn)。
存算一體架構(gòu)將數(shù)據(jù)存儲單元和計算單元融合為一體,能顯著減少數(shù)據(jù)搬運,極大地提高計算并行度和能效。本次試驗采用知存科技的40nm制程WTM2101存算一體芯片作為計算載體(圖1),該芯片于2022年3月在業(yè)內(nèi)率先實現(xiàn)商用量產(chǎn),采用NOR-Flash非易失存儲器件實現(xiàn)AI權(quán)重存儲和矩陣乘加運算,支持卷積、全連接、Relu等深度神經(jīng)網(wǎng)絡(luò)算子,可以為端側(cè)AI計算提供高能效的算力。
面向WTM2101存算一體芯片計算特性,項目團隊通過算子優(yōu)化技術(shù),將超分模型中的AI算子轉(zhuǎn)換為存算一體芯片支持的算子類型,更好地發(fā)揮存內(nèi)計算優(yōu)勢。針對陣列規(guī)模有限的問題,基于結(jié)構(gòu)重參數(shù)化思想,將帶有局部特征提取算子的多分支卷積結(jié)構(gòu)融合轉(zhuǎn)換為一個3×3卷積層(圖2-a),實現(xiàn)近5倍的參數(shù)量壓縮,得到輕量化超分模型骨干網(wǎng)絡(luò)(圖2-b)。在此基礎(chǔ)上,利用權(quán)重量化技術(shù),將 FP32權(quán)重轉(zhuǎn)換成INT8整數(shù),實現(xiàn)超分模型在存算一體芯片的適配和高效運行,計算能效相比基于傳統(tǒng)馮·諾依曼計算架構(gòu)的12nm制程GPU提升2倍以上。
圖2 面向存算一體芯片的超分模型結(jié)構(gòu)
為了支持視頻超分模型在WTM2101芯片的編譯、部署和推理,項目團隊研發(fā)面向存算一體芯片的軟件計算引擎(圖3),兼容Pytorch、Tensorflow等多種AI框架,提供AI模型編排、部署、推理、管理、驗證、優(yōu)化等全流程服務(wù),有效降低用戶的開發(fā)門檻,提升開發(fā)調(diào)試效率。另外,軟件計算引擎提供了一系列的模型誤差補償技術(shù),有效解決了存算一體芯片模擬計算存在誤差、器件非理性特性等問題,實測顯示視頻超分模型在存算一體芯片上計算的特征圖(feature map)和CPU上計算的特征圖余弦相似度為91.8%,在提升計算能效的同時確保了足夠高的計算精度。圖4為基于存算一體芯片的4倍圖像超分效果。
圖3 存算一體軟件計算引擎
下一步,中國移動研究院將不斷深耕存算一體領(lǐng)域,一方面發(fā)揮應(yīng)用牽引作用,推動存算一體芯片在算力機頂盒、AR/VR終端等場景落地應(yīng)用;另一方面持續(xù)完善軟件計算引擎功能,助力存算一體軟件生態(tài)構(gòu)建。