(源初/文)12月18日, NVIDIA于今日發(fā)布一款突破性的推理軟件TensorRT 7。借助于該軟件,全球各地的開(kāi)發(fā)者都可以實(shí)現(xiàn)會(huì)話式AI應(yīng)用,大幅減少推理延遲。而此前,巨大的推理延遲一直都是實(shí)現(xiàn)真正交互式互動(dòng)的一大阻礙。然而,使用TensorRT 7可以對(duì)所有模型進(jìn)行編譯,使其在 NVIDIA GPU上運(yùn)行,T4 GPU上推理會(huì)話AI只需要0.3秒。而傳統(tǒng)一套端到端有20-30個(gè)模型的流程,CPU的推理延遲一般為3秒。
NVIDIA TensorRT 7作為NVIDIA第七代推理軟件開(kāi)發(fā)套件,為實(shí)現(xiàn)更加智能的AI人機(jī)交互打開(kāi)了新大門(mén),從而能夠?qū)崿F(xiàn)與語(yǔ)音代理、聊天機(jī)器人和推薦引擎等應(yīng)用進(jìn)行實(shí)時(shí)互動(dòng)。相比于TensorRT 5支持的30種計(jì)算變換,TensorRT 7能夠支持1000多種不同設(shè)計(jì)的計(jì)算變換和優(yōu)化。
據(jù)Juniper Research估計(jì),全世界有32.5億個(gè)數(shù)字語(yǔ)音助理被應(yīng)用于設(shè)備中。到2023年,該數(shù)字預(yù)計(jì)將達(dá)到80億,比當(dāng)今全球人口總和還要多。
TensorRT 7內(nèi)置新型深度學(xué)習(xí)編譯器。該編譯器能夠自動(dòng)優(yōu)化和加速遞歸神經(jīng)網(wǎng)絡(luò)與基于轉(zhuǎn)換器的神經(jīng)網(wǎng)絡(luò)。這些日益復(fù)雜的神經(jīng)網(wǎng)絡(luò)是AI語(yǔ)音應(yīng)用所必需的。與在CPU上運(yùn)行時(shí)相比,會(huì)話式AI組件速度提高了10倍以上,從而將延遲降低到實(shí)時(shí)交互所需的300毫秒閾值以下。
NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛在GTC China主題演講中表示:“我們已進(jìn)入了一個(gè)機(jī)器可以實(shí)時(shí)理解人類語(yǔ)言的AI新時(shí)代。TensorRT 7使這成為可能,為世界各地的開(kāi)發(fā)者提供工具,使他們能夠構(gòu)建和部署更快、更智能的會(huì)話式AI服務(wù),從而實(shí)現(xiàn)更自然的AI人機(jī)交互!
全球一些最大、最具創(chuàng)新性的公司已在使用NVIDIA的會(huì)話式AI加速功能。在首批使用NVIDIA會(huì)話式AI加速能力的企業(yè)中,包括了阿里巴巴、百度、滴滴出行、美團(tuán)、快手、平安、搜狗、騰訊和字節(jié)跳動(dòng)等一些中國(guó)最具創(chuàng)新力的領(lǐng)先企業(yè)。
搜狗公司為全球使用頻率最高的手機(jī)應(yīng)用程序——微信,提供搜索服務(wù)。搜狗首席技術(shù)官楊洪濤表示:“搜狗每天通過(guò)輸入法、AI硬件、搜索等產(chǎn)品為數(shù)億用戶提供語(yǔ)音、圖像、翻譯、對(duì)話以及問(wèn)答等優(yōu)質(zhì)的AI服務(wù),我們使用NVIDIA TensorRT推理平臺(tái)實(shí)現(xiàn)線上實(shí)時(shí)快速的服務(wù)響應(yīng),領(lǐng)先的AI能力顯著提升了我們的用戶體驗(yàn)!
遞歸神經(jīng)網(wǎng)絡(luò)變得日益重要
TensorRT 7加快了AI模型的領(lǐng)域擴(kuò)展。這些模型被用于預(yù)測(cè)使用遞歸循環(huán)結(jié)構(gòu)(RNN)的時(shí)間序列、數(shù)據(jù)情景。除了用于會(huì)話式 AI語(yǔ)音網(wǎng)絡(luò)之外,RNN還可以幫助規(guī)劃汽車(chē)或衛(wèi)星到達(dá)時(shí)間、預(yù)測(cè)電子病歷中的異常情況預(yù)測(cè)金融資產(chǎn)和識(shí)別欺詐。
RNN配置和功能組合的爆炸式增長(zhǎng)為快速部署可以滿足實(shí)時(shí)性能標(biāo)準(zhǔn)的生產(chǎn)代碼帶來(lái)了挑戰(zhàn),使得開(kāi)發(fā)者需要花費(fèi)長(zhǎng)達(dá)數(shù)月的時(shí)間創(chuàng)建手寫(xiě)代碼優(yōu)化,從而使得會(huì)話式AI僅局限于擁有必要專業(yè)人才的少數(shù)公司。
通過(guò)TensorRT的新型深度學(xué)習(xí)編譯器,全球各地的開(kāi)發(fā)者能夠?qū)⑦@些網(wǎng)絡(luò)(例如定制的自動(dòng)語(yǔ)音識(shí)別網(wǎng)絡(luò)以及用于文本-語(yǔ)音轉(zhuǎn)換的WaveRNN和Tacotron 2)實(shí)現(xiàn)自動(dòng)化,并實(shí)現(xiàn)最佳的性能和最低的延遲。
新的編譯器還能優(yōu)化基于transformer的模型,例如用于自然語(yǔ)言處理的BERT等。
從邊緣到云,為推理提供加速
TensorRT 7可以快速優(yōu)化、驗(yàn)證并部署經(jīng)過(guò)訓(xùn)練的神經(jīng)網(wǎng)絡(luò),為超大型數(shù)據(jù)中心、嵌入式或汽車(chē)GPU平臺(tái)提供推理能力。
NVIDIA的推理平臺(tái),包括TensorRT以及多個(gè)NVIDIA CUDA-X AI" 庫(kù)和NVIDIA GPU,不只能為會(huì)話式AI提供低延遲、高吞吐量的推理能力,也同樣能為包括圖像分類、欺詐識(shí)別、分割、目標(biāo)檢測(cè)和推薦引擎在內(nèi)的其它應(yīng)用提供低延遲、高吞吐量的推理能力。 該平臺(tái)的各項(xiàng)能力已被一些世界領(lǐng)先的企業(yè)和消費(fèi)技術(shù)公司廣泛使用,其中包括阿里巴巴、美國(guó)運(yùn)通(American Express)、百度、PayPal、Pinterest、Snap、騰訊和Twitter。
未來(lái)幾天內(nèi)TensorRT 7 將可開(kāi)放訪問(wèn),以用于開(kāi)發(fā)和部署。NVIDIA開(kāi)發(fā)者計(jì)劃成員可通過(guò) TensorRT 網(wǎng)頁(yè)免費(fèi)獲得TensorRT 7。此外,新版本插件、語(yǔ)法分析器和樣本也將作為開(kāi)放資源,通過(guò)TensorRT GitHub 庫(kù)提供。