AI集群,對抗英偉達(dá)的新“殺手锏”?

jh 1年前 (2024-06-27)

大力出奇跡,也是一個新思路。

上周,英偉達(dá)以3.3萬億美元成功超越蘋果等巨頭,登上了全球市值第一。

除了股價上的成功外,英偉達(dá)以不可阻擋的膨脹勢頭,再次證明了自己在AI設(shè)施領(lǐng)域的王者地位。

目前,英偉達(dá)的AI芯片已經(jīng)占據(jù)了全世界數(shù)據(jù)中心約80%的份額,包括大模型、智能汽車、機(jī)器人在內(nèi),多個行業(yè)都依賴著英偉達(dá)龐大的算力體系。

反觀同樣逐鹿AI浪潮的AMD,在戰(zhàn)略上已經(jīng)遠(yuǎn)遠(yuǎn)落后于英偉達(dá)。

這其中,英偉達(dá)在軟件生態(tài)上的優(yōu)勢占了很大一部分原因。而另一方面,AMD其實(shí)選擇了一條不一樣的思路——他們思考如何將數(shù)量龐大的GPU構(gòu)建成一個更大規(guī)模的超大規(guī)模集群。

近日,AMD執(zhí)行副總裁兼數(shù)據(jù)中心解決方案集團(tuán)總經(jīng)理Forrest Norrod在接受采訪時表示,AMD將構(gòu)建全球最大的單體AI訓(xùn)練集群,將集成高達(dá)120萬片的GPU。

作為對比,目前全球最強(qiáng)的超級計(jì)算機(jī)Frontier所配備的GPU數(shù)量只有37888片,這也意味著這個AI訓(xùn)練集群的GPU規(guī)模將是目前最強(qiáng)超算的30多倍。

不過AMD方面并沒有透露哪個組織正在考慮構(gòu)建這種規(guī)模的AI系統(tǒng),但提到這個AI訓(xùn)練集群將花費(fèi)數(shù)百億到數(shù)千億美元。

AI集群并不是什么新概念,包括英偉達(dá)自己也多次提到“AI工廠”。

單從字面意思就非常好理解,就是把成千上萬個GPU集成到一個工廠里,從而來訓(xùn)練大模型或是進(jìn)行其他工作。

而其他組織搭建AI集群的初衷大多是想降低AI的訓(xùn)練成本。要知道訓(xùn)練AI的花銷大頭還是GPU,且不說單個芯片根本沒辦法滿足大模型訓(xùn)練的需求,更重要的是高算力的GPU供不應(yīng)求,只能將算力稍差的GPU進(jìn)行互連。

但對比通常由幾千個 GPU構(gòu)建而成AI集群,如果要創(chuàng)建一個擁有高達(dá)120萬個 GPU 的單體 AI 集群,意味著將會面臨極為復(fù)雜的高速互連網(wǎng)絡(luò),并且還會有延遲、功耗、硬件故障等諸多的問題,這似乎是難以實(shí)現(xiàn)的。

另外,如此龐大的AI訓(xùn)練集群,將會產(chǎn)生極為龐大的能耗,供電將會是一個大難題。

值得一提的是,英偉達(dá)早已預(yù)料到這個風(fēng)險(xiǎn)。因此在去年,黃仁勛召集了一系列會議,與公司高管討論了數(shù)據(jù)中心空間不足的問題以及客戶是否有足夠電廠來容納、運(yùn)行所訂購的GPU。

對于AMD來說,他們是優(yōu)勢之一就是優(yōu)秀的“計(jì)算能效”。

近些年以來,AMD的核心目標(biāo)之一就是提升計(jì)算能效。蘇姿豐也在演講中多次提到,提高計(jì)算能效可以更好地解決能源與算力之間的矛盾,并且讓超級計(jì)算中心可以被部署到更多的地方。

可見,AMD的產(chǎn)品在設(shè)計(jì)時就已經(jīng)考慮到能源負(fù)擔(dān)與AI能力之前的關(guān)系,最終也是為大面積建設(shè)AI集群提供基礎(chǔ)。

總的來說,AI集群的思路就是“大力出奇跡”,雖然有許多客觀因素的限制,但確實(shí)是一條值得探索的道路。

一方面,算力需求的膨脹的是可以長期預(yù)測的趨勢。另一方面,隨著臺積電代工能力日趨飽和,來自硬件層面的限制將影響單個GPU上限的發(fā)展速度。

或許一個由120萬片GPU組成的瘋狂計(jì)劃,很快就能成為現(xiàn)實(shí)。

最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!

鎂客網(wǎng)


科技 | 人文 | 行業(yè)

微信ID:im2maker
長按識別二維碼關(guān)注

硬科技產(chǎn)業(yè)媒體

關(guān)注技術(shù)驅(qū)動創(chuàng)新

分享到