語(yǔ)音助手極大的解放了人類的雙手,當(dāng)雙手雙眼被占用時(shí),當(dāng)無(wú)法在鍵盤上輸入時(shí),當(dāng)打字不方便時(shí),只需說(shuō)出你的指令,應(yīng)用便會(huì)自動(dòng)進(jìn)行下一步操作,就像請(qǐng)別人幫忙一樣方便。不過對(duì)待語(yǔ)音助手可不能像對(duì)待朋友那般隨意,你說(shuō)出的指令要非常清晰,除了發(fā)音要字正腔圓之外,還要直接表達(dá)出指令的含義,這是由于語(yǔ)音助手不具備邏輯思考能力,它無(wú)法像人類一樣去“理解”,語(yǔ)音助手背后的語(yǔ)音技術(shù)就顯得尤為重要了。
前一段時(shí)間,搜狗發(fā)布了“知 音”引擎,它是一種可以令人機(jī)交互更加自然的語(yǔ)音技術(shù),有了它的幫助手機(jī)上的語(yǔ)音助手,以及其它支持語(yǔ)音輸入功能的應(yīng)用可以理解邏輯更為復(fù)雜的指令,而不 再需要“慢慢說(shuō)”,甚至當(dāng)你的指令有前后順序和層級(jí)關(guān)系時(shí)它也能聽懂,這就好比機(jī)器突然有了大腦一樣。
糾錯(cuò)
其實(shí)當(dāng)前的語(yǔ) 音技術(shù)是有一定的糾錯(cuò)能力的,比如使用語(yǔ)音輸入時(shí),當(dāng)用戶說(shuō)出某個(gè)詞語(yǔ)后應(yīng)用會(huì)通過發(fā)音來(lái)判斷是哪些文字,但在用戶說(shuō)出全部?jī)?nèi)容時(shí),前面的某些詞語(yǔ)還會(huì)繼 續(xù)進(jìn)行修正。不過一旦文字上屏就不能再次修改了,只能通過手動(dòng)的方法刪除,麻煩不說(shuō),也失去了語(yǔ)音輸入的意義。
搜狗輸入法中已經(jīng)接入了“知音”引擎,它具備理解糾錯(cuò)指令的能力,如果用戶發(fā)現(xiàn)哪里輸入錯(cuò)誤,可以通過語(yǔ)音的方式來(lái)修改。受到環(huán)境、口音、語(yǔ)速等影響,語(yǔ)音輸入時(shí)聽錯(cuò)字是很正常的,通過實(shí)際測(cè)試來(lái)檢驗(yàn)一下搜狗輸入法語(yǔ)音輸入的糾錯(cuò)能力。
全部指令如下:
“今天晚上七點(diǎn),我和他一起去大望路吃飯,那邊兒好停車”
“女字旁的她”
“把七點(diǎn)改為六點(diǎn)”
“把大望路改成國(guó)貿(mào)”
“叫上張爽一起去吧”
“立早章”
“刪掉那邊兒好停車”






可以看到無(wú)論是輸入時(shí)還是后期糾錯(cuò),應(yīng)用所給出的結(jié)果是完全正確的,語(yǔ)音修改也變成了一件很簡(jiǎn)單的操作。不僅如此,它還能夠聽懂用戶發(fā)出的糾錯(cuò)指令并替換掉錯(cuò)誤的內(nèi)容,解決了聽錯(cuò)字的問題。
據(jù)搜狗語(yǔ)音交互技術(shù)中心負(fù)責(zé)人王硯峰表示,搜狗語(yǔ)音可以支持的文法數(shù)目在3萬(wàn)個(gè)以上,修改的成功率可達(dá)到80%,這些主要得益于豐富的詞庫(kù)數(shù)據(jù)、拆字庫(kù)、用戶輸入的語(yǔ)料以及大量的百科知識(shí)圖譜。而這些數(shù)據(jù)的來(lái)源除了語(yǔ)義系統(tǒng)架構(gòu)之外,還有搜狗旗下支持語(yǔ)音的產(chǎn)品。
邏輯指令
上文中提到,大多數(shù)語(yǔ)音指令只能采用“單線程處理”,也就是說(shuō)一個(gè)指令只能對(duì)應(yīng)一項(xiàng)功能,且不同的指令之間不能有邏輯關(guān)系。但是搜狗“知音”引擎表示可 以做到。前面提到語(yǔ)音輸入多用于雙手不便打字的情況下,比如駕車時(shí),語(yǔ)音導(dǎo)航是一個(gè)非常重要的助手。通常來(lái)說(shuō),使用語(yǔ)音導(dǎo)航時(shí)發(fā)出的指令邏輯性比較強(qiáng),舉 個(gè)例子:“我要去首都機(jī)場(chǎng)”,導(dǎo)航其實(shí)是不知道你要去哪個(gè)航站樓的,但搭載了“知音”引擎后,導(dǎo)航會(huì)直接請(qǐng)用戶再發(fā)出更具體的指令,比如說(shuō)出幾號(hào)航站樓, 或者直接說(shuō)出航班號(hào),“知音”引擎會(huì)以此為依據(jù),進(jìn)一步確認(rèn)目的地。
在一些與我們生活更為貼近的方面,知音”引擎也在發(fā)揮作用,當(dāng)用戶發(fā)出“今天天氣怎么樣?”的指令時(shí),由于意思明確非常容易理解,但當(dāng)用戶在給出答案之后再發(fā)出“那明天呢?”的指令時(shí),通過語(yǔ)音技術(shù)的理解也可以正確給出明天的天氣預(yù)報(bào)。

對(duì)于人類來(lái)說(shuō),剛才的兩句對(duì)話是有邏輯關(guān)系的,聽者非常容易就能明白“那明天呢?”指的是明天的天氣,但對(duì)于機(jī)器來(lái)說(shuō)這并不簡(jiǎn)單,基于對(duì)多輪對(duì)話技術(shù)的語(yǔ)義理解能力,“知音”引擎技術(shù)能識(shí)別出這兩條指令的前后關(guān)系,還是不錯(cuò)的。
注意:這項(xiàng)技術(shù)還在不斷的完善和優(yōu)化中,它無(wú)法達(dá)到人類的思維能力和水準(zhǔn),對(duì)于邏輯關(guān)系太復(fù)雜的指令還不能正確識(shí)別。
目前搜狗旗下部分應(yīng)用已經(jīng)搭載了“知音”引擎技術(shù),比如搜狗的車載導(dǎo)航以及輸入法等等,它還在升級(jí)的過程當(dāng)中,未來(lái)可能會(huì)有更多的應(yīng)用接入“知音”引擎,同時(shí)搜狗也表示愿意和能力更強(qiáng)的合作伙伴一起提升語(yǔ)音輸入的交互體驗(yàn)。
掃碼關(guān)注5G通信官方公眾號(hào),免費(fèi)領(lǐng)取以下5G精品資料
1、回復(fù)“YD5GAI”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):5G網(wǎng)絡(luò)AI應(yīng)用典型場(chǎng)景技術(shù)解決方案白皮書》
2、回復(fù)“5G6G”免費(fèi)領(lǐng)取《5G_6G毫米波測(cè)試技術(shù)白皮書-2022_03-21》
3、回復(fù)“YD6G”免費(fèi)領(lǐng)取《中國(guó)移動(dòng):6G至簡(jiǎn)無(wú)線接入網(wǎng)白皮書》
4、回復(fù)“LTBPS”免費(fèi)領(lǐng)取《《中國(guó)聯(lián)通5G終端白皮書》》
5、回復(fù)“ZGDX”免費(fèi)領(lǐng)取《中國(guó)電信5G NTN技術(shù)白皮書》
6、回復(fù)“TXSB”免費(fèi)領(lǐng)取《通信設(shè)備安裝工程施工工藝圖解》
7、回復(fù)“YDSL”免費(fèi)領(lǐng)取《中國(guó)移動(dòng)算力并網(wǎng)白皮書》
8、回復(fù)“5GX3”免費(fèi)領(lǐng)取《 R16 23501-g60 5G的系統(tǒng)架構(gòu)1》