(魏德齡/文)當(dāng)人們已經(jīng)習(xí)慣了在線視頻會(huì)議,對(duì)于這種溝通方式在使用過(guò)程中的痛點(diǎn)也被放大,解決問(wèn)題提升體驗(yàn)成為了目前業(yè)界對(duì)于視頻會(huì)議功能的新發(fā)力點(diǎn)。對(duì)于當(dāng)下視頻會(huì)議過(guò)程中,因信號(hào)問(wèn)題造成人物圖像不清晰、成像角度不佳、由于客觀原因個(gè)人形象不佳的問(wèn)題,英偉達(dá)在CVPR 2021上最新展示的Vid2Vid Cameo成功通過(guò)AI解決了這一問(wèn)題。
只需兩個(gè)元素告別尷尬
根據(jù)英偉達(dá)媒體會(huì)上的演示來(lái)看,只需要錄入兩個(gè)元素,就能通過(guò)AI來(lái)解決上述視頻會(huì)議過(guò)程中的尷尬問(wèn)題,兩個(gè)元素分別為一張人物外貌照片和一段視頻流。之后Vid2Vid Cameo就能在視頻通話的過(guò)程中模擬出真實(shí)高清的人物形象,或是虛擬的卡通形象,這些形象還可以根據(jù)會(huì)議人的面部形態(tài)進(jìn)行匹配。
這就意味著,如果會(huì)議人員沒(méi)有著正裝,Vid2Vid Cameo也可以根據(jù)已經(jīng)錄入的元素來(lái)模擬出與會(huì)者的正裝形象,并且可以進(jìn)行動(dòng)態(tài)顯示。而如果與會(huì)者沒(méi)有化妝,或個(gè)人形象暫時(shí)不佳,Vid2Vid Cameo也能以此前元素中的理想形象,來(lái)動(dòng)態(tài)的呈現(xiàn)在會(huì)議的視頻中。
這項(xiàng)功能同樣可以應(yīng)用于目前很多廠商在關(guān)注的通過(guò)卡通虛擬形象來(lái)進(jìn)行在線交流的功能中,Vid2Vid Cameo同樣可以虛擬出一個(gè)卡通形象,用戶只需上傳一張卡通頭像便可實(shí)現(xiàn),通過(guò)追蹤與會(huì)者的五官變化,來(lái)進(jìn)行實(shí)時(shí)的虛擬形象顯示。
Vid2Vid Cameo甚至還能可以實(shí)現(xiàn)移花接木,通過(guò)AI將某個(gè)人的動(dòng)作轉(zhuǎn)移到另一個(gè)人的參照?qǐng)D像上,同樣可以生成更逼真、更清晰的結(jié)果,優(yōu)于先進(jìn)的模型。
值得一提的是,Vid2Vid Cameo還能大大降低網(wǎng)絡(luò)壓力,讓以往視頻會(huì)議過(guò)程中由于網(wǎng)絡(luò)問(wèn)題所造成畫面卡頓及馬賽克現(xiàn)象一去不復(fù)返。原因在于在實(shí)際虛擬過(guò)程中通過(guò)僅來(lái)回壓縮及發(fā)送頭部位置和關(guān)鍵點(diǎn),而不是完整的視頻流,此技術(shù)將視頻會(huì)議所需的帶寬降低 10 倍,從而提供更流暢的用戶體驗(yàn)。
AI助力全新視頻會(huì)議體驗(yàn)
本次展示的Vid2Vid Cameo 是用于視頻會(huì)議的 NVIDIA Maxine SDK 背后的深度學(xué)習(xí)模型之一,它借助生成式對(duì)抗網(wǎng)絡(luò) (GAN),實(shí)現(xiàn)了僅用一張人物2D圖像即可合成逼真的人臉說(shuō)話視頻。Vid2Vid Cameo是英偉達(dá)在CVPR 2021上發(fā)表的28篇論文之一。
實(shí)現(xiàn)上述功能的過(guò)程中,AI發(fā)揮了重要作用,AI可以將用戶的面部動(dòng)作映射到參考照片上,當(dāng)偵測(cè)到與會(huì)者身體運(yùn)動(dòng)后,也能自動(dòng)調(diào)整角度,讓與會(huì)者看上去可以一直處在面向攝像頭的狀態(tài)。
這一模型基于 NVIDIA DGX 系統(tǒng)開發(fā),使用包含 18 萬(wàn)個(gè)高質(zhì)量人臉說(shuō)話視頻的數(shù)據(jù)集進(jìn)行訓(xùn)練。網(wǎng)絡(luò)已掌握識(shí)別 20 個(gè)關(guān)鍵點(diǎn),這些關(guān)鍵點(diǎn)可用于在沒(méi)有人工標(biāo)注的情況下對(duì)面部動(dòng)作進(jìn)行建模。包括眼睛、嘴和鼻子在內(nèi)的點(diǎn)對(duì)特征的位置進(jìn)行編碼。
在傳輸過(guò)程中,視頻會(huì)議平臺(tái)只需傳送關(guān)鍵點(diǎn)信息接口,視頻接收端會(huì)使用此信息來(lái)模擬參照?qǐng)D像的外觀以合成一個(gè)視頻。另外,該模型還可以進(jìn)行調(diào)整,傳輸不同數(shù)量的關(guān)鍵點(diǎn),以實(shí)現(xiàn)在不影響視覺(jué)質(zhì)量的條件下,適應(yīng)不同的帶寬環(huán)境。這也就是上文提到的可以大幅節(jié)省傳輸流量的原因所在。
目前,這一能夠讓視頻會(huì)議人員告別個(gè)人形象尷尬的功能即將登陸 NVIDIA Maxine SDK,為開發(fā)者提供經(jīng)過(guò)優(yōu)化的預(yù)訓(xùn)練模型,以便在視頻會(huì)議和直播中實(shí)現(xiàn)視頻、音頻和增強(qiáng)現(xiàn)實(shí)效果。開發(fā)者已經(jīng)能采用 Maxine AI 效果,包括智能除噪、視頻升采樣和人體姿態(tài)估計(jì)。SDK 支持免費(fèi)下載,還可與 NVIDIA Jarvis 平臺(tái)搭配用于對(duì)話式 AI 應(yīng)用,包括轉(zhuǎn)錄和翻譯。
也許在不久以后,無(wú)論是剛剛起床,還是身在海灘邊度假的你,當(dāng)臨時(shí)視頻會(huì)議接入的時(shí)候,都能西裝筆挺、頭發(fā)一絲不亂的出現(xiàn)在會(huì)議之中,隨時(shí)以最好的形象進(jìn)行溝通。