2021歐洲杯足球賽近日“姍姍來遲”,牽動了無數(shù)球迷的心。精彩的球賽視頻背后,令人意想不到的是AI技術正在重塑體育視頻產(chǎn)業(yè)的內(nèi)容生產(chǎn)方式。
在近期舉辦的國際計算機視覺與模式識別頂會CVPR 2021上,視頻理解領域最具影響力的International Challenge on Activity Recognition (ActivityNet) workshop旗下多個競賽公布榜單。競賽吸引了百度、阿里、字節(jié)跳動、騰訊、華為等知名企業(yè)和清華、北大、斯坦福、麻省理工學院、中科院等國內(nèi)外高校和機構參與。其中,全球首個以足球比賽視頻的全方位理解為目標的SoccerNet-v2足球視頻理解競賽中,百度研究院以絕對優(yōu)勢奪取了全部兩項任務的冠軍。
百度拿下全部兩項任務冠軍
本屆競賽所使用的 SoccerNet-v2數(shù)據(jù)集在足球理解領域規(guī)模最大,包括500場來自2014到2017年三個賽季的歐洲足球五大聯(lián)賽和歐洲冠軍聯(lián)賽的視頻,視頻總時長達到764小時,人工標注達30萬個,成為國際AI團隊間衡量足球視頻理解能力的重要標準。
雙任務項目奪冠 大幅提升基線平均mAP
本屆SoccerNet-v2競賽下設了事件定位(action spotting)和回放溯源(replay grounding)兩個任務。其中,事件定位(action spotting)是從足球比賽實況轉(zhuǎn)播視頻中找到一些關鍵事件并確定其發(fā)生的時刻。關鍵事件包括17個類別,涵蓋進球、點球、任意球、紅牌、黃牌、角球等重要事件,以及犯規(guī)、越位、射正、射偏等人類也難以立刻分辨的事件。同時有一部分事件甚至并未被直接拍攝到,需要根據(jù)上下文來推測,這也是對視頻動作識別和事件檢測能力的一個挑戰(zhàn)。
回放溯源是(replay grounding)是把足球比賽轉(zhuǎn)播視頻中的回放片段和原始事件進行匹配。在足球比賽視頻中一個精彩事件發(fā)生之后往往有多次回放,且回放和原始事件之間可能會相隔長達上百秒,拍攝視角也經(jīng)常不同,能否將回放片段和原始片段匹配是對超長距離視頻理解能力的一項考察。
百度研究院圖文轉(zhuǎn)視頻VidPress團隊專注于算法研究和應用創(chuàng)新,此次拿下兩項任務的冠軍,展現(xiàn)出了超群的技術實力。系統(tǒng)采用兩階段的方法,首先特征提取器提取足球視頻特征,再將提取出的特征作為第二階段具體任務模塊的輸入,進行事件定位或者回放溯源。
事件定位和回放溯源的系統(tǒng)流程
在特征提取階段,團隊認為在足球視頻上微調(diào)過的特征提取器更有利于提升事件定位和回放溯源兩個下游任務的表現(xiàn),因此在SoccerNetv2數(shù)據(jù)上微調(diào)了五種預訓練的特征提取器模型:TPN、GTA、VTN、irCSN和I3D-Slow。這五種特征提取器模型均是最近年來視頻理解領域在分類任務上表現(xiàn)優(yōu)異的模型,在標準數(shù)據(jù)集Kinetics-400上的成績也名列前茅。
在五種特征提取器模型之上,團隊也充分利用數(shù)據(jù),設計了多種微調(diào)特征提取器模型的策略、開發(fā)了提取特征的新方法。得到每種特征提取器在足球視頻上提取的特征后,將五種特征連接起來并做了歸一化處理,使得優(yōu)化后的特征對足球比賽視頻具有強大表達能力,為后面的下游任務打下了堅實基礎。
在事件定位和回放溯源階段采用了Transformer結構。Transformer架構的特點是更清晰、更標準化、模型容量大、擴展性強,能適應計算機視覺、自然語言等多種業(yè)務。Transformer結構在這兩個任務中體現(xiàn)了對視覺語義特征的精確的時序處理能力,優(yōu)于基線算法中Siamese網(wǎng)絡的學習能力和訓練速度。在訓練過程中,事件定位采用了mix-up數(shù)據(jù)增強,更高效利用了訓練數(shù)據(jù)、降低過擬合。在回放溯源的任務上,模型結構的更換使得訓練時間減少到原來的八分之一。
結合前述的視覺信息語義化特征,以及為新的任務訂制的Transformer結構,百度研究院在競賽成績上取得了較大幅度的領先。在事件定位任務上,把基線的平均mAP由52.54%提升到74.84%,提高了22.3個百分點,是第二名提升的近兩倍;在回放溯源的任務上,把平均mAP由基線的40.75%提升到了71.90%,提高了31.15個百分點,比第二名63.91%的成績高出8個百分點。
技術“照進”現(xiàn)實應用 智能視頻生成工具應運而生
百度研究院之所以能夠在該項競賽中脫穎而出,離不開基于大規(guī)模視頻數(shù)據(jù)的算法能力技術積累。
該項技術有非常高的實用價值,可以大規(guī)模應用于體育賽事視頻中,通過對全場比賽進行智能識別,可以在不需要人工介入的條件下,精準、實時地切分出進球、射門、犯規(guī)等動作片段。
基于此項能力,團隊開發(fā)出了一系列應用工具并成功落地。
首先是行業(yè)領先的自定義足球精彩集錦生成工具。輸入球員后選定比賽場次,即可自動生成這個球員的精彩瞬間視頻集錦以及慢動作回放。目前這一系統(tǒng)已經(jīng)落地在百度百科400多個足球球員和球隊頁面。
輸入球員名稱+比賽名稱,生成該球員的視頻集錦
其次,將文本語義理解與視頻圖像理解貫通,團隊還搭建了足球圖文戰(zhàn)報一鍵轉(zhuǎn)換視頻平臺。輸入文字直播內(nèi)容或者直播間地址,就能智能聚合生成對應的視頻內(nèi)容,提高了戰(zhàn)報的生成效率和可讀性。
根據(jù)文字直播內(nèi)容智能生成對應的片段視頻
此外,團隊還建立了基于圖像場景識別的智能視頻生產(chǎn)線,該生產(chǎn)線可以快速理解上傳的長視頻,檢測是否有進球、精準定位視頻中的進球瞬間,并完成自動剪輯。
上傳一段比賽視頻,自動識別生成進球片段
基于在智能視頻技術上的不斷創(chuàng)新和積累,百度研究院在2020年初孵化推出了智能圖文轉(zhuǎn)視頻工具VidPress,是業(yè)界首個支撐通用型、大規(guī)模的全自動視頻生產(chǎn)技術。VidPress能夠支持圖文鏈接一鍵導入,自動自動實現(xiàn)配音、字幕、畫面的視頻內(nèi)容生產(chǎn),降低素材搜集、整理、匹配的時間成本。目前VidPress已作為百度大腦智能創(chuàng)作平臺中的核心能力,為人民日報等多家媒體機構的智能視頻生產(chǎn)賦能;為秒懂百科智能生成上千條球員精彩瞬間視頻;為百家號和好看視頻等平臺的終端用戶提供一鍵視頻生成服務。百度大腦智能創(chuàng)作平臺基于自然語言處理、知識圖譜、視覺、語音的整合技術能力,為創(chuàng)作者提供多項能力,助力新聞生產(chǎn)的策、采、編、審、發(fā)全流程,全面提升內(nèi)容生產(chǎn)效率。
全視頻時代到來,各行各業(yè)對視頻的應用、體驗和效能都提出了全新升級需求,智能視頻變化趨勢背后的驅(qū)動力少不了AI的身影。無論是足球比賽視頻,還是其他內(nèi)容豐富、形式多樣的視頻內(nèi)容,未來百度也將持續(xù)在相關領域的技術上不斷突破迭代,并持續(xù)賦能應用與產(chǎn)品落地,為視頻行業(yè)的發(fā)展與變革注入充足動力。