AI不是只有4090、A800這些卡, 英偉達(dá)RTX 5000 Ada工作站也能跑AI
預(yù)算有限情況下,能自由地在工作站上跑AI的感覺還是很好的。
過往知道4090可以跑AI,預(yù)算充足的情況下可以上NVIDIA Tesla顯卡,但是服務(wù)器資源有限,我們最近就直接用新到手的英偉達(dá) RTX 5000 Ada 搭到自己工作站上做了個(gè)升級,這樣方便在辦公室自由地跑跑推理和模型微調(diào)。最近主要測試了跑跑llma3。
以下就是我們用RTX 5000 Ada 工作站測試當(dāng)紅大模型llma3的情況:
測試環(huán)境:
軟件平臺:系統(tǒng):Ubuntu22.04;架構(gòu): VLLM/Transformer;
測試的模型:Llama3-8B,使用AWQ量化的Llama3-8B,使用GPTQ量化的Llama3-70B。
測試用例兩種模式:
一種是對話模式,就是說我們輸入比較少生成的一個(gè)數(shù)量恰中的一個(gè)水平,我們這里用的是32個(gè)token的輸入以及生成256個(gè)輸出的一個(gè)情況。
另一種是檢索模式,輸入1K tokens,輸出256 token。這個(gè)是較為典型的RAG用例,即檢索增強(qiáng)生成。
測試參數(shù):
1、Throughput:吞吐率,單位為token/s,即每秒生成的token數(shù)量。對于中文字符來說,可以認(rèn)為是每秒生成的字?jǐn)?shù)。
2、Latency:時(shí)延,在我們做大模型推理的時(shí)候,從輸入到所有輸出生成完畢的所需時(shí)間,單位為秒。
3、AWQ/GPTQ:大模型的量化技術(shù),普遍使用4bit的方式來代表原本16bit的浮點(diǎn)數(shù),可以大大節(jié)省對顯存的占用率,同時(shí)提高推理速率。
4、Batch size,我們在做大模型推理的時(shí)候,可以并發(fā)輸入大模型里面的用戶請求的數(shù)量,一般來說我們的并發(fā)數(shù)量越大,吞吐率越高。但過大的批量,會導(dǎo)致時(shí)延大大加長,適得其反。所以需要取值適中。
測試過程及結(jié)果:
1、單卡5000 Ada 測試AWQ量化的Llama3-8B。
當(dāng)batch size 達(dá)到128時(shí),能達(dá)到最大的吞吐率,為2205 t/s,即每秒可輸出2205個(gè)Token,時(shí)延小于15秒。比較理想的batch size是32-64。
2、單卡5000 Ada 測試Llama3-8BRAG。
當(dāng)batch size 達(dá)到24時(shí),能達(dá)到最大的吞吐率約156 t/s,其時(shí)延約39秒。對比過去測試單卡4090 的性能來看,4090單卡最大只能加載到16個(gè)請求。
3、4卡5000 Ada 測試AWQ量化的Llama3-8B
當(dāng)batch size 達(dá)到256時(shí),能達(dá)到最大的吞吐率3635 t/s,其時(shí)延約為18秒。比較理想的batch size是32-128。
4、4卡5000 Ada 測試GPTQ量化的Llama3-70B
當(dāng)batch size 達(dá)到256時(shí),能達(dá)到最大的吞吐率903 t/s,其時(shí)延約為72秒。建議batch size控制在32以內(nèi)。
總體感受不錯(cuò),畢竟預(yù)算有限,還能自由地在工作站上跑跑AI的感覺還是很好的。
(外觀參數(shù)等可參照:https://www.bilibili.com/video/BV1FN4y1f7wo/?share_source=copy_web&vd_source=9b60e49bb50bbcdce771cafe00e5dca5
最后,記得關(guān)注微信公眾號:鎂客網(wǎng)(im2maker),更多干貨在等你!
硬科技產(chǎn)業(yè)媒體
關(guān)注技術(shù)驅(qū)動創(chuàng)新
