
新浪科技訊 北京時(shí)間8月2日消息,今天,數(shù)碼相機(jī)捕捉的數(shù)據(jù)往往只是生成最終照片的原始數(shù)據(jù)。在我們將照片傳到社交網(wǎng)絡(luò)之前,即使只是普通的手機(jī)攝影師,也會(huì)花1分鐘或者2分鐘調(diào)節(jié)色彩和對(duì)比度,用圖片處理軟件處理,現(xiàn)在市場(chǎng)上有很多這樣的軟件。
在本周舉辦的Siggraph會(huì)議上,麻省理工學(xué)院(MIT)計(jì)算機(jī)科學(xué)與AI實(shí)驗(yàn)室和谷歌的研究人員展示了一套新系統(tǒng),它可以自動(dòng)按專業(yè)攝像師的處理方式潤飾圖片。系統(tǒng)相當(dāng)節(jié)能,可以在手機(jī)上運(yùn)行,處理速度很快,可以實(shí)時(shí)顯示潤飾的圖片,這樣一來攝影師可以一邊拍攝一邊查看最終圖像。
MIT與谷歌合作
不只如此,這套系統(tǒng)還可以讓現(xiàn)有的圖像處理算法加速運(yùn)行。谷歌有一套算法可以生成HDR圖像,在標(biāo)準(zhǔn)數(shù)字圖片中有些色彩細(xì)節(jié)會(huì)丟失,谷歌算法卻可以捕捉到細(xì)節(jié),研究人員在測(cè)試中發(fā)現(xiàn),新系統(tǒng)生成的圖像與谷歌算法生成的圖像很難區(qū)分,但所用的時(shí)間只有十分之一,速度足夠快,完全可以實(shí)時(shí)顯示。
MIT與谷歌開發(fā)的系統(tǒng)是一套機(jī)器學(xué)習(xí)系統(tǒng),也就是說它可以通過分析訓(xùn)練數(shù)據(jù)不斷學(xué)習(xí),提高完成任務(wù)的技能。在MIT系統(tǒng)中,每一次學(xué)習(xí)新任務(wù)都要用幾千對(duì)圖片進(jìn)行訓(xùn)練,包括原始圖片和潤飾圖片。
系統(tǒng)是根據(jù)MIT研究人員之前從事的項(xiàng)目開發(fā)的,在之前的項(xiàng)目中,研究人員用手機(jī)將低分辨率圖片發(fā)送到網(wǎng)絡(luò)服務(wù)器,服務(wù)器發(fā)回“轉(zhuǎn)化方案”,用它就可以在手機(jī)上對(duì)高清版本的圖片進(jìn)行潤飾,這樣就可以降低帶寬要求。
MIT電子工程、計(jì)算機(jī)科學(xué)研究生邁克爾·加哈比(Micha?l Gharbi)說:“谷歌聽到了我們?cè)谧鲞@樣的研究,他們自己也跟著研究,我們見了面,將兩套方案整合在一起。總的構(gòu)想是這樣的:要做我們之前所做的所有事,但是必須在云端處理一切,不斷學(xué)習(xí)。學(xué)習(xí)的第一目標(biāo)就是加快速度。”
兩種關(guān)鍵技術(shù)
在新系統(tǒng)中,大量的圖片處理任務(wù)是用低分辨率圖片完成的,這樣就可以大大縮短時(shí)間,降低能耗。采用新方法帶來許多困難,因?yàn)闄C(jī)器學(xué)習(xí)系統(tǒng)輸出的結(jié)果粗糙很多,新技術(shù)必須從粗糙結(jié)果推斷出高清圖像單個(gè)像素的顏色數(shù)值。
以前,研究人員嘗試讓機(jī)器學(xué)習(xí)系統(tǒng)學(xué)會(huì)一門技巧:增強(qiáng)低分辨率圖片,系統(tǒng)會(huì)猜測(cè)遺漏像素的數(shù)值,然后提升分辨率。在訓(xùn)練時(shí),研究人員向系統(tǒng)輸入低分辨率圖片,最終輸出的卻是高分辨率圖片。方法看起來很好,但在實(shí)際應(yīng)用中效果不好,為什么?因?yàn)榈头直媛蕡D片丟掉太多的數(shù)據(jù)。
加哈比與同事用兩種技術(shù)解決此問題。首先,機(jī)器學(xué)習(xí)系統(tǒng)輸出的結(jié)果不是圖片,而是一組簡(jiǎn)單的公式,它可以對(duì)圖片的像素色彩進(jìn)行修改。在訓(xùn)練時(shí),系統(tǒng)的性能如何由輸出公式的表現(xiàn)來決定。
如何將公式應(yīng)用于高分辨率圖片的單個(gè)像素?那就要靠第二項(xiàng)關(guān)鍵技術(shù)。研究系統(tǒng)輸出的是3D網(wǎng)絡(luò),16x16x8。網(wǎng)絡(luò)16x16的一面對(duì)應(yīng)原圖像的像素位置,上面會(huì)堆疊共8層,它們對(duì)應(yīng)不同的像素強(qiáng)度。每個(gè)網(wǎng)格單元都會(huì)有一個(gè)公式,它決定如何對(duì)源圖像的色彩數(shù)值進(jìn)行修改。
在網(wǎng)絡(luò)16x16的一面有許多單元,每一個(gè)單元代表高清圖片的幾千個(gè)像素。假設(shè)每一組公式對(duì)應(yīng)單元中央的一個(gè)位置,那么方塊內(nèi)每一個(gè)高清像素都是由四組公式?jīng)Q定的。
簡(jiǎn)單來說,該像素的色彩數(shù)值如何修改由方塊四角的公式組合之后決定,它會(huì)根據(jù)距離判斷。網(wǎng)絡(luò)的第三維也這是樣判斷的,也就是對(duì)應(yīng)像素強(qiáng)度的那一面。
速度大幅提升
研究人員用Durand和Adobe的數(shù)據(jù)集訓(xùn)練系統(tǒng)。數(shù)據(jù)包括5000張圖片,每一張都由5位攝像師潤飾過。然后研究人員用幾千張配對(duì)圖片訓(xùn)練系統(tǒng),這些圖片是用流行圖片處理算法生成的,比如當(dāng)中有一套算法專門生成HDR圖片。軟件處理圖片時(shí)占用的內(nèi)存空間與一張數(shù)碼照片差不多,因此我們可以將軟件裝進(jìn)手機(jī),用手機(jī)將圖片處理成各種風(fēng)格。
最后,研究人員將還將自己的系統(tǒng)與其它機(jī)器學(xué)習(xí)系統(tǒng)對(duì)比,其它機(jī)器學(xué)習(xí)系統(tǒng)處理高分辨率圖片,不是低分辨率。在處理過程中,全分辨率圖片需要12GB的內(nèi)存執(zhí)行操作,而研究人員的新系統(tǒng)只要100MB左右,相當(dāng)于1/100。全分辨率HDR系統(tǒng)的處理時(shí)間相當(dāng)于原始算法的10倍,相當(dāng)于MIT系統(tǒng)的100倍。(德克)