微軟在上周正式發(fā)布了第六代微軟小冰人工智能機器人,人們不免將其與蘋果的Siri再進行一番比較,而比較的結果幾乎是一邊倒的,那就是在小冰的面前,Siri實在是有點遜。
在之前我們面對這樣的結論,給出的理由更過是感官上的直接感受,而這一次我們試圖通過一些技術層面的解析來搞清楚Siri和小冰之間到底存在哪些差距。
這里我們主要引入兩個概念:全雙工語音和共感模型。在此之前我們想稍微聊聊Siri和小冰兩者在設計意圖上的不同,而這很有可能是導致二者差異的重要原因。
Siri的設計目標是一個任務型人工智能,她的作用是幫助用戶解決具體的問題的;而小冰則從開始就是一個聊天機器人,并不解決具體問題,就是陪人閑聊用的。
因此,Siri在設計上是以IQ為優(yōu)先的,而小冰則是以EQ為優(yōu)先,從這一點上來看,與Siri和小冰的對話交互過程就有明顯的區(qū)別。Siri更像是機器,而小冰則更像是人,但現(xiàn)在第六代小冰推出之后,也開始附加IQ特性,能夠處理一些具體的事務了。
就人工智能的發(fā)展來說,IQ,也就是數(shù)據(jù)處理方面的研發(fā)是相對簡單的,而EQ,即情感認知則是相當大的難題,因此微軟先EQ后IQ的模式顯然更有優(yōu)勢。
既然我們已經說到了人工智能的EQ塑造,那么小冰到底是通過哪些技術來實現(xiàn)這種情感交互的呢?
大概在過去四五年前的時候,對話式人工智能成為業(yè)界的熱門課題,并且絕大多數(shù)都選擇了任務型或是知識傳遞型的對話系統(tǒng),但這種人機交互實際卻非常生硬,比如具體到開燈關燈、打開電器上,其實和語音命令之間的區(qū)別并不大。
而全雙工語音就是讓小冰與其他人工智能交互截然不同的技術之一,這使得人們與小冰之間的交流不再局限于一問一答,而是更加自然的溝通過程。
舉一個例子,當你開著車出去郊游的時候,車載的不是Siri那種可以幫你干這個干那個的人工智能,而是通過全雙工的方式進行交流的小冰。她除了會根據(jù)你的指令執(zhí)行任務之外,還會對你的車載音樂發(fā)表觀點。當你們交流時,她看到遠處有一座山,就會和你說這個地方很漂亮,可以下次再來。
這種感覺不是你在車上安裝了一個機器人,而是多了一個真正的副駕駛陪你旅行。
這就涉及到了一個問題,那就是小冰能夠通過視覺捕捉環(huán)境信息,這是同樣也是微軟的研究項目,稱為實時視覺,并有一個面向全程的對話引擎。
值得一提的是,現(xiàn)在小冰的全雙工語音已經支持群組功能,利用SpeakerID分類器來判斷說話的人到底是誰,甚至聽得出這些人的年齡、性別等信息,并以此來進行不同的對話和群聊。
比如不同的家庭成員和小冰說“我的電話找不到了”,小冰能夠區(qū)分的出來是誰,并且分別打到他們各自的手機上去。
比如當一個小孩子對小冰說“打開電飯鍋”,小冰能夠識別出發(fā)出命令的是個小孩子,并由此拒絕執(zhí)行指令,并勸說小孩遠離電器。
在這里,小冰不再單單是家里的一個智能語音工具,而是一個新的家庭成員,能夠與家庭成員之間建立自然的聯(lián)系。
微軟小冰
雖然我們一直都在強調小冰的EQ情商,但大家都清楚人工智能本身是不可能產生感情的,因此小冰的EQ本質上是來自一個基本的情感計算框架。
從理性的角度來說,一個對話式人工智能的情商,其實是可以控制一個對話全程的能力,能夠去控制對話全程的走勢,保持一個對話的長度。
現(xiàn)在這個框架已經從去年的生成模型升級到了共感模型。生成模型就是讓小冰可以自創(chuàng)她的回應,而不是像以前一樣,從一個已有的語料庫中間檢索。當她能夠自創(chuàng)回應的時候,她就可以有更好的能力去控制對話,有更好的上下文結合能力。
而共感模型則更進一步,當小冰一方面進行回應的生成時,也同時在運用她的策略來判斷是不是應該引導這個對話,然后去主動的進行觀察,然后偷偷地進行求證,最后再去確證。比如不停地通過各種方式去反復的嘗試人類最關注的興趣到底是在哪個領域,而一旦確認了對方的興趣點,在抓住了一個機會之后就可以引導對方在這個領域進行更加深入的交流。
這個過程中也是保持全雙工語音的,而不是你一輪我一輪的“對講機式交互”,更重要的是這個過程中小冰對于對話是經過情感思考的。
看到這里大家可能就能夠看出,Siri之所以在體驗方面與小冰相差甚遠,本質上是指令性工具與情感交互系統(tǒng)之間的差距,而我們認為后者無疑才是未來人機交互的發(fā)展方向。
現(xiàn)在的智能家居系統(tǒng)在命令集成方面已經做得不錯了,但交互體驗仍然不夠自然,如果小冰能夠更快地滲入這套系統(tǒng),智能家居產品的體驗無疑將變得更加動人。