【移動通信網(wǎng)】太平洋時間2018年3月27日—NVIDIA(納斯達(dá)克代碼:NVDA)今日宣布了一系列新技術(shù)與合作,將其潛在的推理市場擴(kuò)展至全球3000萬臺超大規(guī)模服務(wù)器,同時為交付基于深度學(xué)習(xí)的服務(wù)大幅降低成本。
在GTC2018主題演講中,NVIDIA創(chuàng)始人兼首席執(zhí)行官黃仁勛表示,基于在數(shù)據(jù)中心、汽車應(yīng)用、以及包括機(jī)器人和無人機(jī)等嵌入式設(shè)備領(lǐng)域中,諸如語音識別、自然語言處理、推薦系統(tǒng)、以及圖像識別等新功能的支持,面向深度學(xué)習(xí)推理的GPU加速正在獲得越來越多的關(guān)注。
NVIDIA宣布推出新版TensorRT推理軟件,并將TensorRT集成至谷歌的TensorFlow框架。NVIDIA還宣布,最受歡迎的語音識別框架Kaldi現(xiàn)已針對GPU進(jìn)行了優(yōu)化。NVIDIA與亞馬遜、Facebook及微軟等合作伙伴的緊密協(xié)作,讓開發(fā)者更易于使用ONNX與WinML充分發(fā)揮GPU加速的優(yōu)勢。
NVIDIA加速計(jì)算副總裁兼總經(jīng)理IanBuck表示:“即便是最大規(guī)模的神經(jīng)網(wǎng)絡(luò),面向量產(chǎn)型深度學(xué)習(xí)推理的GPU加速也能夠讓其以最低成本實(shí)時運(yùn)行。隨著對更多智能應(yīng)用及框架支持的快速擴(kuò)展,我們現(xiàn)在能夠提高深度學(xué)習(xí)的質(zhì)量,并幫助降低3000萬臺超大規(guī)模服務(wù)器的成本!
TensorRT和TensorFlow集成
NVIDIA發(fā)布了TensorRT4軟件,以針對廣泛的應(yīng)用加速深度學(xué)習(xí)推理。TensorRT提供高度精確的INT8與FP16網(wǎng)絡(luò)執(zhí)行,最高可減少70%的數(shù)據(jù)中心成本。(1)
TensorRT4可用于快速優(yōu)化、驗(yàn)證及部署在超大規(guī)模數(shù)據(jù)中心、嵌入式與汽車GPU平臺中經(jīng)過訓(xùn)練的神經(jīng)網(wǎng)絡(luò)。相比CPU,針對計(jì)算機(jī)視覺、神經(jīng)網(wǎng)絡(luò)機(jī)器翻譯、自動語音識別、語音合成與推薦系統(tǒng)等常見應(yīng)用,該軟件最高可將深度學(xué)習(xí)推理的速度加快190倍。(2)
為了進(jìn)一步精簡開發(fā),NVIDIA與谷歌的工程師已將TensorRT集成至TensorFlow1.7,使得在GPU上運(yùn)行深度學(xué)習(xí)推理應(yīng)用更加容易。
谷歌工程總監(jiān)RajatMonga表示:“TensorFlow團(tuán)隊(duì)正在與NVIDIA密切協(xié)作,致力于將NVIDIAGPU的最佳性能推向深度學(xué)習(xí)社群,F(xiàn)在,通過TensorFlow與NVIDIATensorRT的集成,可利用VoltaTensorCore技術(shù)將NVIDIA深度學(xué)習(xí)平臺的推理吞吐量提高8倍(相比低延遲目標(biāo)下的普通GPU執(zhí)行),從而讓GPU在TensorFlow內(nèi)的推理實(shí)現(xiàn)了最高性能。”
NVIDIA優(yōu)化了全球領(lǐng)先的語音框架Kaldi,以實(shí)現(xiàn)運(yùn)行于GPU的更快性能。GPU語音加速意味著消費(fèi)者將獲得更加準(zhǔn)確與實(shí)用的虛擬助手,并降低數(shù)據(jù)中心運(yùn)營商的部署成本。
廣泛的業(yè)界支持
全球各地眾多公司的開發(fā)者正在使用TensorRT從數(shù)據(jù)中獲取新洞察,并部署面向企業(yè)與消費(fèi)者的智能服務(wù)。
NVIDIA與亞馬遜、Facebook及微軟密切合作,確保使用Caffe2、Chainer、CNTK、MXNet與Pytorch等ONNX框架的開發(fā)者現(xiàn)在可以在NVIDIA深度學(xué)習(xí)平臺輕松部署。
SAP機(jī)器學(xué)習(xí)負(fù)責(zé)人MarkusNoga表示:“通過在NVIDIATeslaV100GPU上運(yùn)行我們基于深度學(xué)習(xí)的推薦應(yīng)用,我們對TensorRT進(jìn)行了評估。相比基于CPU的平臺,我們在推理速度與吞吐量方面獲得了45倍的提升。我們相信,TensorRT能夠大幅提高我們企業(yè)客戶的生產(chǎn)力!
TwitterCortex負(fù)責(zé)人NicolasKoumchatzky表示:“通過使用GPU,在我們的平臺上得以實(shí)現(xiàn)媒體識讀,這不僅顯著減少了媒體深度學(xué)習(xí)模型訓(xùn)練時間,而且還能夠讓我們在推理時間獲得對于即時影像的實(shí)時解讀!
近期,微軟也宣布了針對Windows10應(yīng)用的人工智能支持。NVIDIA與微軟合作創(chuàng)建了GPU加速的工具,幫助開發(fā)者向Windows應(yīng)用引入更多智能特性。
NVIDIA還宣布了面向Kubernetes的GPU加速,以促進(jìn)企業(yè)在多云GPU集群上的推理部署。NVIDIA將針對開源社群強(qiáng)化GPU性能,以支持Kubernetes生態(tài)系統(tǒng)。
此外,MATLAB軟件開發(fā)商MathWorks今天宣布了TensorRT與MATLAB的集成。工程師與科學(xué)家現(xiàn)在可以利用MATLAB自動生成面向NVIDIADRIVE"、Jetson"與Tesla®平臺的高性能推理引擎。
面向數(shù)據(jù)中心的推理
數(shù)據(jù)中心的運(yùn)營者需要不斷地尋求性能與效率的平衡,以使其服務(wù)器群保持最大的生產(chǎn)力。針對深度學(xué)習(xí)推理應(yīng)用與服務(wù),NVIDIATeslaGPU加速的服務(wù)器能夠替代數(shù)個機(jī)架的CPU服務(wù)器,從而釋放寶貴的機(jī)架空間,并減低能源與降溫需求。
面向自動駕駛汽車、嵌入式平臺的推理
TensorRT也可以部署在NVIDIADRIVE自動駕駛車輛與NVIDIAJetson嵌入式平臺上;诟鱾框架的深度神經(jīng)網(wǎng)絡(luò)均可在數(shù)據(jù)中心內(nèi)的NVIDIADGX"系統(tǒng)中加以訓(xùn)練,然后部署至包括從機(jī)器人到自動駕駛車輛的所有類型的設(shè)備,并在終端實(shí)現(xiàn)實(shí)時推理。
利用TensorRT,開發(fā)者可以集中于開發(fā)基于深度學(xué)習(xí)的新型應(yīng)用,而非針對推理部署進(jìn)行性能調(diào)節(jié)。利用可顯著降低延遲的INT8或FP16精度,開發(fā)者可使用TensorRT交付閃電般快速的推理,這對于嵌入式與汽車平臺上的目標(biāo)檢測與路徑規(guī)劃等功能而言至關(guān)重要。
NVIDIA開發(fā)者計(jì)劃成員可了解關(guān)于TensorRT4候選發(fā)布版的更多信息:https://developer.nvidia.com/tensorrt。