英偉達近日宣布了一項令人矚目的成就:其最新推出的Blackwell GPU在meta的Llama 4 Maverick模型上,成功刷新了大型語言模型(LLM)推理速度的世界紀錄。這一突破發(fā)生在周四,當時英偉達正式對外公布了這一消息。
據(jù)悉,為了達到這一里程碑,AI基準測試權(quán)威機構(gòu)Artificial Analysis采用了配置了8塊Blackwell GPU的DGX B200節(jié)點。這一配置使得系統(tǒng)每用戶每秒能夠生成高達1000個tokens(TPS),這在之前是難以想象的。
英偉達的技術(shù)團隊通過深度優(yōu)化TensorRT-LLM軟件棧,并結(jié)合EAGLE-3技術(shù),對推測解碼草稿模型進行了訓(xùn)練。這種加速技術(shù)通過小型快速草稿模型預(yù)測token序列,再由大型目標LLM進行并行驗證。英偉達表示,這種方法的優(yōu)勢在于單次迭代可能生成多個token,盡管這需要額外的草稿模型計算開銷。經(jīng)過這些優(yōu)化,整套服務(wù)器系統(tǒng)在峰值吞吐配置下,每秒能夠處理72,000個tokens。
英偉達進一步解釋說,Blackwell架構(gòu)與Llama 4 Maverick級別的超大規(guī)模語言模型完美適配,這得益于其專為大型語言模型推理加速設(shè)計的EAGLE3軟件架構(gòu)。這一架構(gòu)與GPU硬件架構(gòu)形成了協(xié)同效應(yīng),從而實現(xiàn)了性能的顯著提升。
英偉達還強調(diào),他們在提高性能的同時,也確保了響應(yīng)的準確性。測試結(jié)果顯示,使用FP8數(shù)據(jù)格式的準確性與人工分析的BF16數(shù)據(jù)格式相當。這意味著,在保持高準確性的前提下,英偉達成功地大幅提高了系統(tǒng)的性能。
英偉達的這一突破,不僅展示了其在GPU技術(shù)領(lǐng)域的領(lǐng)先地位,也為大型語言模型的推理加速提供了新的解決方案。隨著人工智能技術(shù)的不斷發(fā)展,這一突破將對未來的AI應(yīng)用產(chǎn)生深遠的影響。