(魏德齡/文)當(dāng)下,擁有實時運(yùn)行特性的人工智能應(yīng)用正開始在日常生活中占據(jù)重要角色,最典型的例子就是實時的語音轉(zhuǎn)文字、聊天機(jī)器人這類應(yīng)用,在使用過程中即時響應(yīng)速度關(guān)乎著實際體驗感受。而企業(yè)為了保證時延,又往往不得不縮減模型大小。最終卻可能讓用戶實際體驗時出現(xiàn)不怎么快也不怎么準(zhǔn)的問題,英偉達(dá)剛剛發(fā)布的TensorRT 8恰恰將助力這類實時AI應(yīng)用能夠更快更好。
性能精度均提升2倍
一直以來,英偉達(dá)在AI領(lǐng)域的布局都不止于硬件,TensorRT就是重要佐證之一,作為用于高性能深度學(xué)習(xí)推理的SDK。此SDK包含深度學(xué)習(xí)推理優(yōu)化器和運(yùn)行時環(huán)境,可為深度學(xué)習(xí)推理應(yīng)用提供低延遲和高吞吐量。
通過TensorRT,開發(fā)者可將TensorFlow、Pytorch等訓(xùn)練好的框架模型,通過優(yōu)化后良好的運(yùn)行在英偉達(dá)的GPU上。在2019年發(fā)布的NVIDIA TensorRT 7已經(jīng)為智能的AI人際交互打開了大門,可實現(xiàn)與語音代理、聊天機(jī)器人和推薦引擎等應(yīng)用的實時互動。
TensorRT 7配合A100 GPU可實現(xiàn)在2.5毫秒內(nèi)運(yùn)行BERT-Large,此次新發(fā)布的TensorRT 8將時間縮減至1.2毫秒。作為目前最廣為采用的基于transformer的模型之一,意味著理論上當(dāng)用戶在使用如實時語音翻譯這樣的功能時,TensorRT 8的處理延遲時間可降至1.2毫秒。
TensorRT 8相比TensorRT 7有著兩倍性能提升的同時,精度也同樣提升2倍。TensorRT 8在兩方面實現(xiàn)了AI推理上的突破,一方面提升了對于英偉達(dá)Ampere架構(gòu)GPU的稀疏性,在提升效率的同時還能減少開發(fā)者加速神經(jīng)網(wǎng)絡(luò)時的計算操作。另一方面是量化感知訓(xùn)練,開發(fā)者能夠使用訓(xùn)練好的模型,以INT8精度運(yùn)行推理,在這一過程中不會損失精度。
這就意味著,企業(yè)可以將模型擴(kuò)大1-2倍,實現(xiàn)精度的大幅提升,讓自身的實時AI應(yīng)用變得又快又好。
為多領(lǐng)域帶來更快更好的AI能力
當(dāng)前,TensorRT的生態(tài)影響力正在快速增長,2020年的開發(fā)者人數(shù)相比2019年就實現(xiàn)了3倍的增長,達(dá)到35萬人,下載量已經(jīng)達(dá)到近250萬次,共有從邊緣到云的多個領(lǐng)域的共27500家公司加入到該生態(tài)之中。其中包括如電信運(yùn)營商Verizon,也有國內(nèi)的知名互聯(lián)網(wǎng)公司阿里、騰訊、字節(jié)跳動等。
TensorRT 8的發(fā)布無疑將會讓搜索、購物推薦、語音翻譯、語音轉(zhuǎn)文字這樣的AI應(yīng)用能夠?qū)崿F(xiàn)更快更好。Hugging Face就正在與英偉達(dá)開展密切合作,作為大規(guī)模AI服務(wù)提供商,Hugging Face加速推理API能夠為基于NVIDIA GPU的transformer模型提供高達(dá)100倍的速度提升,通過TensorRT 8,Hugging Face在BERT上實現(xiàn)了1毫秒的推理延遲,為助力實現(xiàn)大規(guī)模文本分析、神經(jīng)搜索和對話式應(yīng)用的AI服務(wù)提供加速度。
據(jù)悉,TensorRT目前還應(yīng)用在了臨床醫(yī)療領(lǐng)域,GE醫(yī)療就通過TensorRT來助力加速超聲波計算機(jī)視覺應(yīng)用,這是一款早期檢測疾病的關(guān)鍵工具。TensorRT的實時推理能力提高了視圖檢測算法的性能,縮短了產(chǎn)品上市時間。實際工作中可讓掃描儀在進(jìn)行自動心臟視圖檢測時更高效,心臟視圖識別算法會選擇合適的圖像來分析心壁運(yùn)動。
TensorRT 8無疑將讓反應(yīng)更快更聰明的客服機(jī)器人、實時翻譯更迅速的應(yīng)用變得可以翹首以待,也許能夠隨時接話茬的將不止是調(diào)皮的學(xué)生,機(jī)器人也可以做到。人與人之間的交流,語音上的牽絆變得更低,翻譯可以同語音實時同步,即時記錄成文字也不成問題,準(zhǔn)確性也十分不錯。更快更好的實時AI正在到來。