近日,美國科技媒體The Verge發(fā)表署名文章,對百度剛剛推出的語音合成系統(tǒng)Deep Voice2進(jìn)行高度評價(jià),這一新技術(shù)可以通過短短半小時(shí)就學(xué)會(huì)新的口音,該文作者認(rèn)為,這一產(chǎn)品的技術(shù)水平已經(jīng)超過了蘋果的Siri。
最近幾年來,隨著人工智能的發(fā)展,研究人員利用深度學(xué)習(xí)制造出能識別物體、理解口語,甚至模擬人類聲音的系統(tǒng),人工智能能夠?qū)崿F(xiàn)的功能越來越多,而且完成任務(wù)的質(zhì)量也越來越高。
三個(gè)月前,百度展示了語音合成系統(tǒng)Deep Voice,可以實(shí)時(shí)合成出與真實(shí)人聲區(qū)別很小的語音,不過這一系統(tǒng)一次只能學(xué)習(xí)一種音色,也就是說,如果需要合成不同語音特征的聲音,需要重復(fù)進(jìn)行長時(shí)間大量語料的訓(xùn)練。而此次百度推出的Deep Voice 2,則可以在短短半個(gè)小時(shí)內(nèi)就學(xué)會(huì)一個(gè)特定說話人的口音,在這個(gè)基礎(chǔ)上,系統(tǒng)還可以自動(dòng)學(xué)習(xí)成百上千種口音,也就是能模仿數(shù)百個(gè)人講話。
該文作者以蘋果Siri與百度Deep Voice 2進(jìn)行了比較。Siri每個(gè)新的語音都需要記錄一個(gè)真人數(shù)千小時(shí)的發(fā)音語料,然后再進(jìn)行長時(shí)間的訓(xùn)練并由工程師進(jìn)行調(diào)整,從而讓Siri說話。而Deep Voice 2則采用了不同的技術(shù)路徑,通過學(xué)習(xí)數(shù)百個(gè)人的發(fā)音語料建立起人類發(fā)音模型,然后通過調(diào)整這一共同模型的不同參數(shù)來模擬不同人的發(fā)音,這整個(gè)過程都不需要人工干預(yù),效率顯然遠(yuǎn)高于Siri。
對此百度硅谷AI實(shí)驗(yàn)室Deep Voice項(xiàng)目的科研專家安德魯 吉本斯基(Andrew Gibiansky)介紹說,“給出正確的數(shù)據(jù),它就可以自己找到語音中的重要特點(diǎn)并進(jìn)行自我學(xué)習(xí)!
語音識別技術(shù)的應(yīng)用場景和商業(yè)機(jī)會(huì)已是公認(rèn)的廣闊,而合成技術(shù)未來的機(jī)會(huì)亦是空間無限。Deep Voice 2可以用于大多數(shù)的人機(jī)交互場景,為我們的數(shù)字助理創(chuàng)建各種自定義角色。例如百度與中國聯(lián)通就簽署了合作協(xié)議組建智能客服,這樣用戶與智能客服的溝通就會(huì)出現(xiàn)不同的聲音。此外,這項(xiàng)技術(shù)還可以應(yīng)用在電子書閱讀器的朗讀功能,讓電子書內(nèi)容里的每一個(gè)角色都有屬于自己的聲音和相應(yīng)的情緒、語氣,聽起來會(huì)生動(dòng)很多。另外,Deep Voice 2可以用于其他需要語音交互的場景下,例如個(gè)性化的語音導(dǎo)航、智能家電等,都可以使用這一功能學(xué)習(xí)個(gè)性化的語音,比如自己喜歡的明星或是自己的男(女)朋友的聲音,而無需再依賴導(dǎo)航產(chǎn)品官方發(fā)布的語音包。經(jīng)歷了鍵盤鼠標(biāo)、觸摸式的人機(jī)交互之后,語音作為第三代人機(jī)交互方式的浪潮已經(jīng)到來。