亚洲第一福利视频,欧美黑人粗大xxxxpp,国内精品一区二区三区,国产精品久久久久影院色

智快網(wǎng) - 新科技與新能源行業(yè)網(wǎng)絡(luò)媒體

英偉達Blackwell GPU助力AI推理速度飛躍,達成千TPS/用戶新高度

   發(fā)布時間:2025-05-24 13:12 作者:朱天宇

英偉達近日宣布了一項令人矚目的成就:其最新推出的Blackwell GPU在meta的Llama 4 Maverick模型上,成功刷新了大型語言模型(LLM)推理速度的世界紀錄。這一突破發(fā)生在周四,當時英偉達正式對外公布了這一消息。

據(jù)悉,為了達到這一里程碑,AI基準測試權(quán)威機構(gòu)Artificial Analysis采用了配置了8塊Blackwell GPU的DGX B200節(jié)點。這一配置使得系統(tǒng)每用戶每秒能夠生成高達1000個tokens(TPS),這在之前是難以想象的。

英偉達的技術(shù)團隊通過深度優(yōu)化TensorRT-LLM軟件棧,并結(jié)合EAGLE-3技術(shù),對推測解碼草稿模型進行了訓(xùn)練。這種加速技術(shù)通過小型快速草稿模型預(yù)測token序列,再由大型目標LLM進行并行驗證。英偉達表示,這種方法的優(yōu)勢在于單次迭代可能生成多個token,盡管這需要額外的草稿模型計算開銷。經(jīng)過這些優(yōu)化,整套服務(wù)器系統(tǒng)在峰值吞吐配置下,每秒能夠處理72,000個tokens。

英偉達進一步解釋說,Blackwell架構(gòu)與Llama 4 Maverick級別的超大規(guī)模語言模型完美適配,這得益于其專為大型語言模型推理加速設(shè)計的EAGLE3軟件架構(gòu)。這一架構(gòu)與GPU硬件架構(gòu)形成了協(xié)同效應(yīng),從而實現(xiàn)了性能的顯著提升。

英偉達還強調(diào),他們在提高性能的同時,也確保了響應(yīng)的準確性。測試結(jié)果顯示,使用FP8數(shù)據(jù)格式的準確性與人工分析的BF16數(shù)據(jù)格式相當。這意味著,在保持高準確性的前提下,英偉達成功地大幅提高了系統(tǒng)的性能。

英偉達的這一突破,不僅展示了其在GPU技術(shù)領(lǐng)域的領(lǐng)先地位,也為大型語言模型的推理加速提供了新的解決方案。隨著人工智能技術(shù)的不斷發(fā)展,這一突破將對未來的AI應(yīng)用產(chǎn)生深遠的影響。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新
 
智快科技微信賬號
微信群

微信掃一掃
加微信拉群
電動汽車群
科技數(shù)碼群