英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

偉銘 2年前 (2023-11-14)

“皮衣刀客”才是最大贏家

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

前幾天,OpenAI一場(chǎng)開(kāi)發(fā)者大會(huì),讓整個(gè)AI人工智能行業(yè)的從業(yè)者幾乎徹夜難眠。而今天,NVIDIA英偉達(dá)同樣帶來(lái)了一個(gè)重磅消息——幾乎可以說(shuō)是目前最快的AI算力芯片H200正式發(fā)布。

距離上一次英偉達(dá)發(fā)布“新品”還沒(méi)過(guò)去多久,皮衣刀客的步伐可以說(shuō)是又快又穩(wěn)。根據(jù)官方透露的信息,H200相比于此前的旗艦H100,直接性能提升有60%到90%,參數(shù)可以說(shuō)是拉滿了。

算力GPU作為當(dāng)下“地球上最稀缺的工程資源之一”,一度引來(lái)科技大廠們的“瘋搶”。在H200發(fā)布之后,相信已經(jīng)有AI公司開(kāi)始訂貨了。

不過(guò)仔細(xì)看H200的規(guī)格就能發(fā)現(xiàn),H200的升級(jí)可能并沒(méi)有那么夸張,值得期待的,也許還是后來(lái)者。

只是一個(gè)“小”升級(jí)

對(duì)比H200與前代H100的規(guī)格,主要負(fù)責(zé)計(jì)算能力的核心單元部分規(guī)格并沒(méi)有改變,算力規(guī)模完全一致,所帶來(lái)的提升只是顯存容量從80GB提高到了141GB,顯存的規(guī)格從原本的HBM3升級(jí)到了HBM3e。

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

(圖源:anandtech)

由于本身算力部分并沒(méi)有變化,因此換用H200并不會(huì)對(duì)AI大模型的訓(xùn)練速度產(chǎn)生更好的影響,以訓(xùn)練175B大小的GPT-3舉例,同規(guī)模的H200大概只比H100快10%左右。

而它主要的提升之處在于“推理”。

一般而言,推理對(duì)于算力的需求并不高,限制反而在于單芯片的顯存大小以及顯存帶寬,如果應(yīng)用到多GPU的互聯(lián),那么信息通信的帶寬反而會(huì)不夠。即便如NV Link提供的900GB/s的數(shù)據(jù)通信速度,也無(wú)法媲美單卡內(nèi)部超過(guò)3TB/s的速度,更不用說(shuō)換了HBM3e顯存后高達(dá)4.8TB/s的性能了。

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

(圖源:NVIDIA)

同樣,更大的單卡顯存容量也能有效減少跨卡訪問(wèn)的次數(shù),算是一種變相的效率提升。

隨著當(dāng)前AI大語(yǔ)言模型逐步邁向應(yīng)用化,計(jì)算任務(wù)的重心已經(jīng)由早期的訓(xùn)練模型轉(zhuǎn)變?yōu)閼?yīng)用端的推理行為。

此前OpenAI就曾苦于AI太過(guò)火爆,擠占了大量的推理資源,國(guó)內(nèi)比如此前曾紅極一時(shí)的“妙鴨相機(jī)”也因?yàn)橛脩籼?,沒(méi)有足夠的推理資源而需要等待很長(zhǎng)時(shí)間才能出片。

而H200對(duì)比H100的推理能耗直接減半,極大降低了使用成本,真應(yīng)了那句話——「買(mǎi)的越多,省的越多」

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

(圖源:NVIDIA)

有業(yè)內(nèi)人士推測(cè),后續(xù)消費(fèi)級(jí)GPU可能也會(huì)出現(xiàn)類(lèi)似的轉(zhuǎn)變,即在算力一定的情況下,通過(guò)提升顯存容量和帶寬以獲得更好的模型推理體驗(yàn),畢竟在“全民AI”的時(shí)代,客戶端的性能也需要跟上。

英偉達(dá)大規(guī)模與高性能計(jì)算副總裁Ian Buck表示:要利用生成式人工智能和高性能計(jì)算應(yīng)用創(chuàng)造智能,必須使用大型、快速的GPU顯存,來(lái)高速高效地處理海量數(shù)據(jù)。借助H200,業(yè)界領(lǐng)先的端到端人工智能超算平臺(tái)的速度會(huì)變得更快,一些世界上最重要的挑戰(zhàn),都可以被解決。

顯存是關(guān)鍵

自從近兩年AI爆火后就迅速帶動(dòng)了AI服務(wù)器的需求爆發(fā),AI大模型的數(shù)據(jù)參數(shù)龐大,除了需要算力支撐模型訓(xùn)練,同樣需要數(shù)據(jù)的傳遞和處理。

過(guò)去20年間,算力硬件的性能提升了90000倍,但是內(nèi)存、存儲(chǔ)的互聯(lián)帶寬只提升了30倍,二者已然有所脫節(jié),數(shù)據(jù)傳遞的速度可能遠(yuǎn)低于數(shù)據(jù)處理的效率。因此,如英偉達(dá)這樣的GPU廠商,就引入了HBM代替原本的GDDR內(nèi)存,通過(guò)硅中介層與計(jì)算核心緊密互聯(lián),加快數(shù)據(jù)傳輸速度。

據(jù)SK海力士介紹,HBM3e不僅滿足了用于AI的存儲(chǔ)器速度規(guī)格,也在發(fā)熱控制和客戶使用便利性等所有方面有所提升。在速度方面,其最高每秒可以處理1.15TB的數(shù)據(jù)。

早在今年8月,NVIDIA就已經(jīng)計(jì)劃發(fā)布配備HBM3e顯存的 Grace Hopper GH200 超級(jí)芯片版本。

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

(圖源:NVIDIA)

根據(jù)anandtech的描述,H200差不多就是GH200的GPU部分,從前面也可以看到,H200的HBM3e顯存的容量有些奇怪,是141GB,HBM3e的物理容量應(yīng)該是144GB,這是由于產(chǎn)量和良率而保留了部分容量。另一方面,H200的顯存頻率應(yīng)該是6.5Gbps,雖然比H100提升了25%,但依舊沒(méi)有達(dá)到美光希望中的9.2Gbps。

所以,此次發(fā)布的H200可能依舊算不上“滿血版”,只能算是加上了HBM3e顯存的H100小更新,也正因此兩者是互相兼容的,已經(jīng)在使用H100進(jìn)行模型訓(xùn)練的可以直接更換成H200。

需要注意的是,H200的實(shí)際出貨時(shí)間是2024年第二季度,也是由于海力士的HBM3e顯存需要到今年年底才能產(chǎn)出,最快量產(chǎn)得到明年初。由此可見(jiàn)顯存其實(shí)才是整個(gè)AI發(fā)展的重中之重。

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

(圖源:NVIDIA)

不過(guò),在發(fā)布中還提到了一些細(xì)節(jié),比如2024年的B100,似乎在性能上又能有接近兩倍的提升?推測(cè)未來(lái)的新架構(gòu)可能會(huì)帶來(lái)一些不同,說(shuō)不定就是那個(gè)真正的“滿血版”。

寫(xiě)在最后

當(dāng)然,受制于美國(guó)的出口禁令,H200再?gòu)?qiáng),也賣(mài)不到國(guó)內(nèi)。

前兩天有消息稱,英偉達(dá)專(zhuān)為中國(guó)市場(chǎng)又開(kāi)發(fā)了新的HGX H20、L20 PCle和L2 PCle GPU,幾乎卡在了管制的算力極限上。

英偉達(dá)H200發(fā)布,性能很強(qiáng),奈何買(mǎi)不到

(圖源:知乎)

只可惜這個(gè)規(guī)格,嗨……希望國(guó)產(chǎn)替代盡快到來(lái)吧。

本文作者:Visssom,觀點(diǎn)僅代表個(gè)人,圖源:NVIDIA

最后,記得關(guān)注微信公眾號(hào):鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長(zhǎng)按識(shí)別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動(dòng)創(chuàng)新

分享到