英偉達(dá)的深度學(xué)習(xí)玩法:Tesla P100、Drive PX2與DGX-1
在今年4月初開幕的圖形處理器技術(shù)大會(huì)上,NVIDIA展示了針對VR虛擬現(xiàn)實(shí)和深度學(xué)習(xí)應(yīng)用的最新技術(shù)和產(chǎn)品。
在今年4月初開幕的圖形處理器技術(shù)大會(huì)(The Nvidia GPU technology Conference, 簡稱GTC)上,NVIDIA展示了針對VR虛擬現(xiàn)實(shí)和深度學(xué)習(xí)應(yīng)用的最新技術(shù)和產(chǎn)品。
在開場的主題演講中,NVIDIA聯(lián)合創(chuàng)始人兼CEO黃仁勛在反復(fù)重申“一個(gè)全新的計(jì)算模型”這樣的字眼。他指出,“消費(fèi)市場需要的計(jì)算機(jī)可再也不是那種馬馬虎虎就能打發(fā)的一般產(chǎn)品。大家都愿意享受超級計(jì)算速率帶來的快感,特別是基于GPU加速帶來的計(jì)算體驗(yàn)”。
當(dāng)然,超級計(jì)算時(shí)代的到來并非只是想想就能實(shí)現(xiàn)的,基于這樣的目標(biāo),NVIDIA在今年的GTC大會(huì)上推出了包括GPU芯片Tesla P100(基于全新Pascal平臺(tái)架構(gòu)上打造)、DRIVE PX2(用于自動(dòng)駕駛汽車的開發(fā)平臺(tái))和用于深度學(xué)習(xí)研究的超級計(jì)算機(jī)DGX-1(使用Tesla P100芯片建造,運(yùn)算速度可達(dá)170萬億次)在內(nèi)的一系列新技術(shù)和新產(chǎn)品。
NVIDIA Tesla P100圖形處理器芯片
為深度學(xué)習(xí)應(yīng)用搭建的全新解決方案
基于NVIDIA全新計(jì)算平臺(tái)Pascal打造的Tesla P100 GPU芯片集成了NV Link總線,16GB HBM2顯存,內(nèi)建3584個(gè)CUDA,224個(gè)紋理單元,16GB HBM2顯存,帶寬可達(dá)到720GB/s,擁有基于16nm FinFET工藝打造的最大GPU核心。
NVIDIA Tesla P100圖形處理器芯片
此外,Tesla P100芯片也是繼2014年發(fā)布,基于Kepler架構(gòu)平臺(tái)打造的Tesla K80之后,Tesla系列GPU產(chǎn)品的首次重大升級。
不過既然這是一款針對深度學(xué)習(xí)打造的GPU芯片,那么這里還必須要提一下Tesla P100芯片使用的NVIDIA旗艦GP100核心。GP100的性能一公布,給車云菌的感覺就是NVIDIA這次回歸了GK110大核心時(shí)代注重雙精度運(yùn)算的設(shè)計(jì),而且比之前更加變態(tài)。它每組SM單元中有64個(gè)FP32單元,但有32個(gè)FP64單元,F(xiàn)P64與FP32比例是1:2。這樣的設(shè)計(jì)意味著GP100的FP32 CUDA核心可以同時(shí)執(zhí)行2個(gè)FP16半精度運(yùn)算,因此FP16浮點(diǎn)性能高達(dá)21.6TFLOPS。
NVIDIA GP100核心架構(gòu)示意圖
GPU并行運(yùn)算的特性很適合深度學(xué)習(xí)。據(jù)車云菌了解,NVIDIA在Tesla P100之外還推出了基于GP100核心的DGX-1深度學(xué)習(xí)超級計(jì)算機(jī),由8顆GP100核心及2顆16核Xeon E5處理器組成,深度計(jì)算性能達(dá)到了170TFLOPS,號稱比250臺(tái)X86服務(wù)器還要強(qiáng)大。
NVIDIA 超級計(jì)算機(jī)DGX-1 售價(jià)高達(dá)$129000,真心不便宜
在過去的兩年里,每次GTC大會(huì)的主題演講環(huán)節(jié),黃仁勛都會(huì)將話題的重點(diǎn)放在深度學(xué)習(xí)和神經(jīng)網(wǎng)絡(luò)研究上,并適時(shí)推出相關(guān)的新技術(shù)和新產(chǎn)品,而這些為NVIDIA之后進(jìn)行人工智能的研究奠定了基礎(chǔ)。今年也不例外。除了基于Pascal全新架構(gòu)平臺(tái)打造的Tesla P100芯片外,NVIDIA還發(fā)布了兩款Maxwell計(jì)算平臺(tái)下的全新GPU芯片—Tesla M40/M4,是為深度學(xué)習(xí)應(yīng)用而特別打造的。
顯而易見的是,使用通用的架構(gòu)平臺(tái),相同的算法,這樣便于進(jìn)行高效的深度學(xué)習(xí)研究。而如果按照傳統(tǒng)的解決辦法,程序是不同的專家寫的,不同的算法導(dǎo)致的實(shí)驗(yàn)結(jié)果可能也會(huì)千差萬別。因此,要長期進(jìn)行深度學(xué)習(xí)研究,NVIDIA的這兩款芯片封裝了固定的算法,并且提供了海量數(shù)據(jù)和強(qiáng)大的計(jì)算能力供你使用。
NVIDIA的Tesla M40芯片擁有8倍更快的caffe性能
因此,如果只考慮深度學(xué)習(xí)訓(xùn)練,NVIDIA的Tesla M40/M4還是相對比較合適的(百度的深度學(xué)習(xí)研究院就用的這一款),相對于K40單精度浮點(diǎn)運(yùn)算性能是4.29Tflops,M40可以達(dá)到7Tflops。
驅(qū)動(dòng)自動(dòng)駕駛汽車發(fā)展的深度學(xué)習(xí)
深度學(xué)習(xí)有成千上萬種潛在的應(yīng)用領(lǐng)域,在自動(dòng)駕駛技術(shù)上的研究算得上是現(xiàn)下最熱門的一個(gè)。盡管基于深度學(xué)習(xí)打造的自動(dòng)駕駛汽車平臺(tái)仍處于概念階段,但NVIDIA一直都在同主機(jī)廠和軟件開發(fā)商合作,設(shè)計(jì)開發(fā)不僅能夠模仿人類駕駛員同時(shí)還可以在復(fù)雜情況下做決定的自動(dòng)駕駛平臺(tái)。
DRIVE PX 2是NVIDIA最新開發(fā)的用于自動(dòng)駕駛汽車的硬件計(jì)算平臺(tái)。相比之前把后備箱塞得滿滿當(dāng)當(dāng)?shù)墓た貦C(jī),DRIVE PX 2在體積上已經(jīng)大大縮小。
NVIDIA DRIVE PX 2自動(dòng)駕駛開發(fā)平臺(tái)
我們不妨先看看DRIVE PX 2的一些基本性能參數(shù):
1.基于16nm FinFET工藝,功耗高達(dá)250W ,采用水冷散熱設(shè)計(jì)。支持12路攝像頭輸入、激光定位、雷達(dá)和超聲波傳感器;
2. CPU部分:兩顆新一代NVIDIA Tegra處理器,當(dāng)中包括了8個(gè)A57核心和4個(gè)Denver核心;
3. 首發(fā)NVIDIA的新一代GPU架構(gòu)Pascal(即帕斯卡,宣稱性能是上一代的麥克斯韋構(gòu)架的10倍),單精度計(jì)算能力達(dá)到8TFlops,超越TITAN X,有后者10倍以上的深度學(xué)習(xí)計(jì)算能力。
那么既然有了如此強(qiáng)大的性能,NVIDIA的DRIVE PX 2平臺(tái)到底如何在自動(dòng)駕駛汽車上發(fā)揮作用呢?這里要重點(diǎn)講一下它在高精度地圖繪制上發(fā)揮的優(yōu)勢。DRIVE PX 2能夠?qū)⑼獠總鞲衅鳙@取的圖像數(shù)據(jù)加工處理后制成單個(gè)的高精度點(diǎn)云。系統(tǒng)將所有DRIVE PX 2平臺(tái)的點(diǎn)云數(shù)據(jù)上傳至云端服務(wù)器,經(jīng)過DGX-1處理后,可融合為一副完整的高精度地圖。所以,車內(nèi)的DRIVE PX 2,云端的DGX-1配合發(fā)揮作用,形成了NVIDIA完整的自動(dòng)駕駛技術(shù)平臺(tái)解決方案。
前面車云菌已經(jīng)為大家簡單介紹了DGX-1的架構(gòu)和參數(shù),那么它的性能到底有多強(qiáng),我們通過下面這個(gè)例子就能直觀地了解到。
將DGX-1和一枚因特爾的雙核Xeon處理器作比較。這枚雙核Xeon的運(yùn)算速度為3 teraflop,但DGX-1的運(yùn)算速度為170 teraflop。那么這意味著如果用這枚雙核Xeon芯片來訓(xùn)練Alexnet網(wǎng)絡(luò)結(jié)構(gòu)模型的話,它需要150個(gè)小時(shí),但DGX-1卻只要兩個(gè)小時(shí)就夠了。
此外,車云菌還了解到,NVIDIA將為自動(dòng)駕駛汽車,打造名為“NVIDIA DIGITS”的端到端深度學(xué)習(xí)訓(xùn)練平臺(tái)。該平臺(tái)依靠DRIVE PX 2進(jìn)行部署,通過網(wǎng)絡(luò)讓每一輛車都構(gòu)建自己的深度學(xué)習(xí)網(wǎng)絡(luò)。在此基礎(chǔ)之上要建立“NVIDIA DRIVENet”的深度神經(jīng)網(wǎng)絡(luò)。它包括3個(gè)卷積碼層,3700萬個(gè)神經(jīng)元,而信息在整個(gè)網(wǎng)絡(luò)流經(jīng)一次,會(huì)產(chǎn)生400億次操作。
參加今年首屆Roborace大獎(jiǎng)賽的無人駕駛賽車渲染圖
而涉及到具體應(yīng)用層面,黃仁勛在GTC大會(huì)的主題演講環(huán)節(jié)還透露稱,參加今年首屆Roborace 的無人駕駛賽車,將使用英偉達(dá)的 DRIVE PX 2 作為計(jì)算平臺(tái)。明年,Drive PX 2還將被沃爾沃用于在瑞典哥德堡的實(shí)地自主駕車實(shí)驗(yàn)中。
車云小結(jié)
我們不妨看看最近恩智浦、高通和NVIDIA這三大芯片供應(yīng)商在汽車領(lǐng)域都有哪些動(dòng)作:
這個(gè)月16號,恩智浦NXP推出了一款用于模塊化量產(chǎn)自動(dòng)駕駛汽車的計(jì)算平臺(tái)BlueBox,它的主要功能是將之前彼此隔離的單個(gè)傳感器節(jié)點(diǎn)和處理器進(jìn)行功能上的結(jié)合。而隨著Android Auto重大更新的發(fā)布,芯片供應(yīng)商高通也宣布未來將聯(lián)手谷歌開發(fā)搭載有安卓操作系統(tǒng)的內(nèi)嵌式車載娛樂信息系統(tǒng)平臺(tái),使用高通專為車機(jī)系統(tǒng)打造的驍龍820A和602A高性能處理器。當(dāng)然NVIDIA今年也推出了DRIVE PX 2, Tesla P100以及超級計(jì)算機(jī)DGX-1,則是在深度學(xué)習(xí)領(lǐng)域火力全開。
這么看來,盡管自動(dòng)駕駛技術(shù)還沒有發(fā)展到Level 3這個(gè)階段,各大芯片廠商已經(jīng)陸續(xù)亮劍,祭出了各自的殺手锏。但產(chǎn)品的出發(fā)點(diǎn)還有所不同,優(yōu)勢領(lǐng)域亦各有差異,但芯片之爭,已經(jīng)開始。最后要吐個(gè)槽,雖然主打GPU的NVIDIA確實(shí)在深度學(xué)習(xí)應(yīng)用上有優(yōu)勢,但業(yè)界一直吐槽他家的產(chǎn)品真是太貴了,價(jià)格一點(diǎn)都不親民。你怎么看呢?
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新
