新浪科技訊 北京時間8月2日消息,今天,數(shù)碼相機捕捉的數(shù)據(jù)往往只是生成最終照片的原始數(shù)據(jù)。在我們將照片傳到社交網(wǎng)絡(luò)之前,即使只是普通的手機攝影師,也會花1分鐘或者2分鐘調(diào)節(jié)色彩和對比度,用圖片處理軟件處理,現(xiàn)在市場上有很多這樣的軟件。
在本周舉辦的Siggraph會議上,麻省理工學院(MIT)計算機科學與AI實驗室和谷歌的研究人員展示了一套新系統(tǒng),它可以自動按專業(yè)攝像師的處理方式潤飾圖片。系統(tǒng)相當節(jié)能,可以在手機上運行,處理速度很快,可以實時顯示潤飾的圖片,這樣一來攝影師可以一邊拍攝一邊查看最終圖像。
MIT與谷歌合作
不只如此,這套系統(tǒng)還可以讓現(xiàn)有的圖像處理算法加速運行。谷歌有一套算法可以生成HDR圖像,在標準數(shù)字圖片中有些色彩細節(jié)會丟失,谷歌算法卻可以捕捉到細節(jié),研究人員在測試中發(fā)現(xiàn),新系統(tǒng)生成的圖像與谷歌算法生成的圖像很難區(qū)分,但所用的時間只有十分之一,速度足夠快,完全可以實時顯示。
MIT與谷歌開發(fā)的系統(tǒng)是一套機器學習系統(tǒng),也就是說它可以通過分析訓練數(shù)據(jù)不斷學習,提高完成任務(wù)的技能。在MIT系統(tǒng)中,每一次學習新任務(wù)都要用幾千對圖片進行訓練,包括原始圖片和潤飾圖片。
系統(tǒng)是根據(jù)MIT研究人員之前從事的項目開發(fā)的,在之前的項目中,研究人員用手機將低分辨率圖片發(fā)送到網(wǎng)絡(luò)服務(wù)器,服務(wù)器發(fā)回“轉(zhuǎn)化方案”,用它就可以在手機上對高清版本的圖片進行潤飾,這樣就可以降低帶寬要求。
MIT電子工程、計算機科學研究生邁克爾·加哈比(Micha?l Gharbi)說:“谷歌聽到了我們在做這樣的研究,他們自己也跟著研究,我們見了面,將兩套方案整合在一起。總的構(gòu)想是這樣的:要做我們之前所做的所有事,但是必須在云端處理一切,不斷學習。學習的第一目標就是加快速度。”
兩種關(guān)鍵技術(shù)
在新系統(tǒng)中,大量的圖片處理任務(wù)是用低分辨率圖片完成的,這樣就可以大大縮短時間,降低能耗。采用新方法帶來許多困難,因為機器學習系統(tǒng)輸出的結(jié)果粗糙很多,新技術(shù)必須從粗糙結(jié)果推斷出高清圖像單個像素的顏色數(shù)值。
以前,研究人員嘗試讓機器學習系統(tǒng)學會一門技巧:增強低分辨率圖片,系統(tǒng)會猜測遺漏像素的數(shù)值,然后提升分辨率。在訓練時,研究人員向系統(tǒng)輸入低分辨率圖片,最終輸出的卻是高分辨率圖片。方法看起來很好,但在實際應(yīng)用中效果不好,為什么?因為低分辨率圖片丟掉太多的數(shù)據(jù)。
加哈比與同事用兩種技術(shù)解決此問題。首先,機器學習系統(tǒng)輸出的結(jié)果不是圖片,而是一組簡單的公式,它可以對圖片的像素色彩進行修改。在訓練時,系統(tǒng)的性能如何由輸出公式的表現(xiàn)來決定。
如何將公式應(yīng)用于高分辨率圖片的單個像素?那就要靠第二項關(guān)鍵技術(shù)。研究系統(tǒng)輸出的是3D網(wǎng)絡(luò),16x16x8。網(wǎng)絡(luò)16x16的一面對應(yīng)原圖像的像素位置,上面會堆疊共8層,它們對應(yīng)不同的像素強度。每個網(wǎng)格單元都會有一個公式,它決定如何對源圖像的色彩數(shù)值進行修改。
在網(wǎng)絡(luò)16x16的一面有許多單元,每一個單元代表高清圖片的幾千個像素。假設(shè)每一組公式對應(yīng)單元中央的一個位置,那么方塊內(nèi)每一個高清像素都是由四組公式?jīng)Q定的。
簡單來說,該像素的色彩數(shù)值如何修改由方塊四角的公式組合之后決定,它會根據(jù)距離判斷。網(wǎng)絡(luò)的第三維也這是樣判斷的,也就是對應(yīng)像素強度的那一面。
速度大幅提升
研究人員用Durand和Adobe的數(shù)據(jù)集訓練系統(tǒng)。數(shù)據(jù)包括5000張圖片,每一張都由5位攝像師潤飾過。然后研究人員用幾千張配對圖片訓練系統(tǒng),這些圖片是用流行圖片處理算法生成的,比如當中有一套算法專門生成HDR圖片。軟件處理圖片時占用的內(nèi)存空間與一張數(shù)碼照片差不多,因此我們可以將軟件裝進手機,用手機將圖片處理成各種風格。
最后,研究人員將還將自己的系統(tǒng)與其它機器學習系統(tǒng)對比,其它機器學習系統(tǒng)處理高分辨率圖片,不是低分辨率。在處理過程中,全分辨率圖片需要12GB的內(nèi)存執(zhí)行操作,而研究人員的新系統(tǒng)只要100MB左右,相當于1/100。全分辨率HDR系統(tǒng)的處理時間相當于原始算法的10倍,相當于MIT系統(tǒng)的100倍。(德克)
掃碼關(guān)注5G通信官方公眾號,免費領(lǐng)取以下5G精品資料
1、回復“YD5GAI”免費領(lǐng)取《中國移動:5G網(wǎng)絡(luò)AI應(yīng)用典型場景技術(shù)解決方案白皮書》
2、回復“5G6G”免費領(lǐng)取《5G_6G毫米波測試技術(shù)白皮書-2022_03-21》
3、回復“YD6G”免費領(lǐng)取《中國移動:6G至簡無線接入網(wǎng)白皮書》
4、回復“LTBPS”免費領(lǐng)取《《中國聯(lián)通5G終端白皮書》》
5、回復“ZGDX”免費領(lǐng)取《中國電信5G NTN技術(shù)白皮書》
6、回復“TXSB”免費領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解》
7、回復“YDSL”免費領(lǐng)取《中國移動算力并網(wǎng)白皮書》
8、回復“5GX3”免費領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1》