微軟在上周正式發(fā)布了第六代微軟小冰人工智能機(jī)器人,人們不免將其與蘋果的Siri再進(jìn)行一番比較,而比較的結(jié)果幾乎是一邊倒的,那就是在小冰的面前,Siri實(shí)在是有點(diǎn)遜。
在之前我們面對(duì)這樣的結(jié)論,給出的理由更過是感官上的直接感受,而這一次我們?cè)噲D通過一些技術(shù)層面的解析來搞清楚Siri和小冰之間到底存在哪些差距。
這里我們主要引入兩個(gè)概念:全雙工語音和共感模型。在此之前我們想稍微聊聊Siri和小冰兩者在設(shè)計(jì)意圖上的不同,而這很有可能是導(dǎo)致二者差異的重要原因。
Siri的設(shè)計(jì)目標(biāo)是一個(gè)任務(wù)型人工智能,她的作用是幫助用戶解決具體的問題的;而小冰則從開始就是一個(gè)聊天機(jī)器人,并不解決具體問題,就是陪人閑聊用的。
因此,Siri在設(shè)計(jì)上是以IQ為優(yōu)先的,而小冰則是以EQ為優(yōu)先,從這一點(diǎn)上來看,與Siri和小冰的對(duì)話交互過程就有明顯的區(qū)別。Siri更像是機(jī)器,而小冰則更像是人,但現(xiàn)在第六代小冰推出之后,也開始附加IQ特性,能夠處理一些具體的事務(wù)了。
就人工智能的發(fā)展來說,IQ,也就是數(shù)據(jù)處理方面的研發(fā)是相對(duì)簡單的,而EQ,即情感認(rèn)知?jiǎng)t是相當(dāng)大的難題,因此微軟先EQ后IQ的模式顯然更有優(yōu)勢(shì)。
既然我們已經(jīng)說到了人工智能的EQ塑造,那么小冰到底是通過哪些技術(shù)來實(shí)現(xiàn)這種情感交互的呢?
大概在過去四五年前的時(shí)候,對(duì)話式人工智能成為業(yè)界的熱門課題,并且絕大多數(shù)都選擇了任務(wù)型或是知識(shí)傳遞型的對(duì)話系統(tǒng),但這種人機(jī)交互實(shí)際卻非常生硬,比如具體到開燈關(guān)燈、打開電器上,其實(shí)和語音命令之間的區(qū)別并不大。
而全雙工語音就是讓小冰與其他人工智能交互截然不同的技術(shù)之一,這使得人們與小冰之間的交流不再局限于一問一答,而是更加自然的溝通過程。
舉一個(gè)例子,當(dāng)你開著車出去郊游的時(shí)候,車載的不是Siri那種可以幫你干這個(gè)干那個(gè)的人工智能,而是通過全雙工的方式進(jìn)行交流的小冰。她除了會(huì)根據(jù)你的指令執(zhí)行任務(wù)之外,還會(huì)對(duì)你的車載音樂發(fā)表觀點(diǎn)。當(dāng)你們交流時(shí),她看到遠(yuǎn)處有一座山,就會(huì)和你說這個(gè)地方很漂亮,可以下次再來。
這種感覺不是你在車上安裝了一個(gè)機(jī)器人,而是多了一個(gè)真正的副駕駛陪你旅行。
這就涉及到了一個(gè)問題,那就是小冰能夠通過視覺捕捉環(huán)境信息,這是同樣也是微軟的研究項(xiàng)目,稱為實(shí)時(shí)視覺,并有一個(gè)面向全程的對(duì)話引擎。
值得一提的是,現(xiàn)在小冰的全雙工語音已經(jīng)支持群組功能,利用SpeakerID分類器來判斷說話的人到底是誰,甚至聽得出這些人的年齡、性別等信息,并以此來進(jìn)行不同的對(duì)話和群聊。
比如不同的家庭成員和小冰說“我的電話找不到了”,小冰能夠區(qū)分的出來是誰,并且分別打到他們各自的手機(jī)上去。
比如當(dāng)一個(gè)小孩子對(duì)小冰說“打開電飯鍋”,小冰能夠識(shí)別出發(fā)出命令的是個(gè)小孩子,并由此拒絕執(zhí)行指令,并勸說小孩遠(yuǎn)離電器。
在這里,小冰不再單單是家里的一個(gè)智能語音工具,而是一個(gè)新的家庭成員,能夠與家庭成員之間建立自然的聯(lián)系。
微軟小冰
雖然我們一直都在強(qiáng)調(diào)小冰的EQ情商,但大家都清楚人工智能本身是不可能產(chǎn)生感情的,因此小冰的EQ本質(zhì)上是來自一個(gè)基本的情感計(jì)算框架。
從理性的角度來說,一個(gè)對(duì)話式人工智能的情商,其實(shí)是可以控制一個(gè)對(duì)話全程的能力,能夠去控制對(duì)話全程的走勢(shì),保持一個(gè)對(duì)話的長度。
現(xiàn)在這個(gè)框架已經(jīng)從去年的生成模型升級(jí)到了共感模型。生成模型就是讓小冰可以自創(chuàng)她的回應(yīng),而不是像以前一樣,從一個(gè)已有的語料庫中間檢索。當(dāng)她能夠自創(chuàng)回應(yīng)的時(shí)候,她就可以有更好的能力去控制對(duì)話,有更好的上下文結(jié)合能力。
而共感模型則更進(jìn)一步,當(dāng)小冰一方面進(jìn)行回應(yīng)的生成時(shí),也同時(shí)在運(yùn)用她的策略來判斷是不是應(yīng)該引導(dǎo)這個(gè)對(duì)話,然后去主動(dòng)的進(jìn)行觀察,然后偷偷地進(jìn)行求證,最后再去確證。比如不停地通過各種方式去反復(fù)的嘗試人類最關(guān)注的興趣到底是在哪個(gè)領(lǐng)域,而一旦確認(rèn)了對(duì)方的興趣點(diǎn),在抓住了一個(gè)機(jī)會(huì)之后就可以引導(dǎo)對(duì)方在這個(gè)領(lǐng)域進(jìn)行更加深入的交流。
這個(gè)過程中也是保持全雙工語音的,而不是你一輪我一輪的“對(duì)講機(jī)式交互”,更重要的是這個(gè)過程中小冰對(duì)于對(duì)話是經(jīng)過情感思考的。
看到這里大家可能就能夠看出,Siri之所以在體驗(yàn)方面與小冰相差甚遠(yuǎn),本質(zhì)上是指令性工具與情感交互系統(tǒng)之間的差距,而我們認(rèn)為后者無疑才是未來人機(jī)交互的發(fā)展方向。
現(xiàn)在的智能家居系統(tǒng)在命令集成方面已經(jīng)做得不錯(cuò)了,但交互體驗(yàn)仍然不夠自然,如果小冰能夠更快地滲入這套系統(tǒng),智能家居產(chǎn)品的體驗(yàn)無疑將變得更加動(dòng)人。