【移動通信網(wǎng)訊】電子信息產(chǎn)業(yè)發(fā)展基金設(shè)立了“大規(guī)模分布式語音智能處理軟件研發(fā)及產(chǎn)業(yè)化”項目,對“百項共性關(guān)鍵技術(shù)”中的面向云計算環(huán)境的語音處理技術(shù)進(jìn)行支持,旨在通過本項目的實施,研發(fā)云計算環(huán)境下的大規(guī)模分布式語音合成技術(shù)、語音識別技術(shù)、語音交互工程技術(shù)等;開發(fā)具有語音合成、語音識別、聲紋識別等處理能力的大規(guī)模分布式智能語音處理軟件,使得各種設(shè)備可以通過網(wǎng)絡(luò)方便地獲得遠(yuǎn)程語音服務(wù),提升產(chǎn)業(yè)競爭力。共安排國撥資金800萬元,總投資2570萬元,組織了科大訊飛、賽迪牽頭的2個團(tuán)隊進(jìn)行聯(lián)合技術(shù)攻關(guān)和產(chǎn)品研發(fā)。
突破關(guān)鍵技術(shù)
圍繞大規(guī)模分布式語音智能處理技術(shù),完成了一系列關(guān)鍵技術(shù)突破,具體包括:
分布式語音合成技術(shù)。研發(fā)完成了適合大規(guī)模分布式計算的語音合成模型訓(xùn)練、語音生成算法,構(gòu)建完成了與語種無關(guān)的語音合成系統(tǒng),為3G及移動互聯(lián)網(wǎng)下分布式的語音應(yīng)用和服務(wù)提供語音合成技術(shù)的核心支撐。
分布式語音識別技術(shù)研究。本項目從大規(guī)模分布式語音應(yīng)用出發(fā),提出了特征模型域綜合噪聲補(bǔ)償?shù)目乖敕椒、多流特征的區(qū)分性模型訓(xùn)練方法、支持百億量級超大規(guī)模語言模型的實時解碼算法,解決了3G及移動互聯(lián)網(wǎng)下語音識別領(lǐng)域環(huán)境噪聲魯棒性、口音適應(yīng)性、說話內(nèi)容普適性等技術(shù)難題,語音識別系統(tǒng)在實際移動終端應(yīng)用中準(zhǔn)確率達(dá)到實用要求并大規(guī)模應(yīng)用推廣。
智能語音計算處理工程技術(shù)研究。完成了面向網(wǎng)絡(luò)的分布式環(huán)境下進(jìn)行并行計算、網(wǎng)絡(luò)計算和高效計算等運(yùn)算模式等智能語音計算處理工程技術(shù)研究,并基于服務(wù)器集群的大規(guī)模海量數(shù)據(jù)處理能力對語音合成與識別系統(tǒng)核心模型效果進(jìn)行了優(yōu)化。
通過關(guān)鍵技術(shù)的攻克,團(tuán)隊開發(fā)出了具有高自然度語音合成、高準(zhǔn)確度的語音識別及聲紋識別等處理能力的大規(guī)模分布式智能語音處理軟件,具備高穩(wěn)定性、高效率的語音合成及識別引擎,支持Windows、Linux、UNIX、Android、iOS等不同平臺的操作系統(tǒng),能夠提供高效、穩(wěn)定、易于管理維護(hù)的大規(guī)模語音服務(wù),并為開發(fā)者提供統(tǒng)一的調(diào)用界面和應(yīng)用支撐。支持大規(guī)模語音應(yīng)用環(huán)境下的高效率協(xié)同,實現(xiàn)高擴(kuò)展性的網(wǎng)絡(luò)語音應(yīng)用接口。該項技術(shù)共申請并受理發(fā)明專利15項,獲得軟件著作權(quán)4項。