(魏德齡/文)當下,擁有實時運行特性的人工智能應用正開始在日常生活中占據(jù)重要角色,最典型的例子就是實時的語音轉文字、聊天機器人這類應用,在使用過程中即時響應速度關乎著實際體驗感受。而企業(yè)為了保證時延,又往往不得不縮減模型大小。最終卻可能讓用戶實際體驗時出現(xiàn)不怎么快也不怎么準的問題,英偉達剛剛發(fā)布的TensorRT 8恰恰將助力這類實時AI應用能夠更快更好。
性能精度均提升2倍
一直以來,英偉達在AI領域的布局都不止于硬件,TensorRT就是重要佐證之一,作為用于高性能深度學習推理的SDK。此SDK包含深度學習推理優(yōu)化器和運行時環(huán)境,可為深度學習推理應用提供低延遲和高吞吐量。
通過TensorRT,開發(fā)者可將TensorFlow、Pytorch等訓練好的框架模型,通過優(yōu)化后良好的運行在英偉達的GPU上。在2019年發(fā)布的NVIDIA TensorRT 7已經為智能的AI人際交互打開了大門,可實現(xiàn)與語音代理、聊天機器人和推薦引擎等應用的實時互動。
TensorRT 7配合A100 GPU可實現(xiàn)在2.5毫秒內運行BERT-Large,此次新發(fā)布的TensorRT 8將時間縮減至1.2毫秒。作為目前最廣為采用的基于transformer的模型之一,意味著理論上當用戶在使用如實時語音翻譯這樣的功能時,TensorRT 8的處理延遲時間可降至1.2毫秒。
TensorRT 8相比TensorRT 7有著兩倍性能提升的同時,精度也同樣提升2倍。TensorRT 8在兩方面實現(xiàn)了AI推理上的突破,一方面提升了對于英偉達Ampere架構GPU的稀疏性,在提升效率的同時還能減少開發(fā)者加速神經網絡時的計算操作。另一方面是量化感知訓練,開發(fā)者能夠使用訓練好的模型,以INT8精度運行推理,在這一過程中不會損失精度。
這就意味著,企業(yè)可以將模型擴大1-2倍,實現(xiàn)精度的大幅提升,讓自身的實時AI應用變得又快又好。
為多領域帶來更快更好的AI能力
當前,TensorRT的生態(tài)影響力正在快速增長,2020年的開發(fā)者人數(shù)相比2019年就實現(xiàn)了3倍的增長,達到35萬人,下載量已經達到近250萬次,共有從邊緣到云的多個領域的共27500家公司加入到該生態(tài)之中。其中包括如電信運營商Verizon,也有國內的知名互聯(lián)網公司阿里、騰訊、字節(jié)跳動等。
TensorRT 8的發(fā)布無疑將會讓搜索、購物推薦、語音翻譯、語音轉文字這樣的AI應用能夠實現(xiàn)更快更好。Hugging Face就正在與英偉達開展密切合作,作為大規(guī)模AI服務提供商,Hugging Face加速推理API能夠為基于NVIDIA GPU的transformer模型提供高達100倍的速度提升,通過TensorRT 8,Hugging Face在BERT上實現(xiàn)了1毫秒的推理延遲,為助力實現(xiàn)大規(guī)模文本分析、神經搜索和對話式應用的AI服務提供加速度。
據(jù)悉,TensorRT目前還應用在了臨床醫(yī)療領域,GE醫(yī)療就通過TensorRT來助力加速超聲波計算機視覺應用,這是一款早期檢測疾病的關鍵工具。TensorRT的實時推理能力提高了視圖檢測算法的性能,縮短了產品上市時間。實際工作中可讓掃描儀在進行自動心臟視圖檢測時更高效,心臟視圖識別算法會選擇合適的圖像來分析心壁運動。
TensorRT 8無疑將讓反應更快更聰明的客服機器人、實時翻譯更迅速的應用變得可以翹首以待,也許能夠隨時接話茬的將不止是調皮的學生,機器人也可以做到。人與人之間的交流,語音上的牽絆變得更低,翻譯可以同語音實時同步,即時記錄成文字也不成問題,準確性也十分不錯。更快更好的實時AI正在到來。