華為在AI領(lǐng)域再度邁出重要一步,正式推出了其最新研發(fā)的盤古 Ultra MoE模型,該模型的參數(shù)規(guī)模驚人,達(dá)到了7180億。這款準(zhǔn)萬億級別的混合專家(MoE)模型,全程在華為的昇騰AI計(jì)算平臺上進(jìn)行訓(xùn)練。
據(jù)悉,盤古團(tuán)隊(duì)為了確保模型訓(xùn)練的穩(wěn)定性和效率,提出了兩項(xiàng)創(chuàng)新技術(shù):Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)和TinyInit小初始化方法。這兩項(xiàng)技術(shù)的結(jié)合,使得在昇騰平臺上,超過18TB的數(shù)據(jù)能夠進(jìn)行長期且穩(wěn)定的訓(xùn)練。
在訓(xùn)練方法上,華為團(tuán)隊(duì)首次公開了在昇騰CloudMatrix 384超節(jié)點(diǎn)上實(shí)現(xiàn)大稀疏比MoE強(qiáng)化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù)。這一突破意味著,RL后訓(xùn)練正式進(jìn)入了超節(jié)點(diǎn)集群的新時(shí)代,為AI模型的訓(xùn)練效率和效果帶來了顯著提升。
華為團(tuán)隊(duì)在短短不到一個(gè)月的時(shí)間內(nèi),對預(yù)訓(xùn)練系統(tǒng)加速技術(shù)進(jìn)行了迭代升級。這些升級包括:針對昇騰硬件的自適應(yīng)流水掩蓋策略,通過優(yōu)化算子執(zhí)行序,降低Host-Bound,并提升EP通信的掩蓋效果;開發(fā)自適應(yīng)管理內(nèi)存優(yōu)化策略,有效管理內(nèi)存資源;通過數(shù)據(jù)重排實(shí)現(xiàn)DP間Attention負(fù)載均衡,避免資源過載;以及針對昇騰硬件的算子優(yōu)化,這些技術(shù)共同作用下,使得萬卡集群預(yù)訓(xùn)練MFU的性能從30%大幅提升至41%。
這些技術(shù)上的突破和創(chuàng)新,不僅展示了華為在AI領(lǐng)域的深厚積累,也預(yù)示著AI技術(shù)未來在更多領(lǐng)域的應(yīng)用前景。隨著AI技術(shù)的不斷發(fā)展,華為盤古 Ultra MoE模型的推出,將為各行各業(yè)提供更加智能、高效的解決方案。
盤古團(tuán)隊(duì)的創(chuàng)新精神和技術(shù)實(shí)力,不僅體現(xiàn)在模型的參數(shù)規(guī)模和訓(xùn)練效率上,更在于他們不斷挑戰(zhàn)技術(shù)極限,推動AI技術(shù)向前發(fā)展的決心和勇氣。未來,我們有理由相信,華為將在AI領(lǐng)域取得更多突破,為人類社會帶來更多福祉。
對于AI技術(shù)的未來發(fā)展,華為始終保持著開放和包容的態(tài)度。他們相信,只有不斷與業(yè)界同仁合作,共同推動技術(shù)的創(chuàng)新和發(fā)展,才能讓AI技術(shù)真正造福于人類社會。因此,華為也歡迎更多合作伙伴加入他們的行列,共同探索AI技術(shù)的無限可能。
最后,對于想要深入了解華為盤古 Ultra MoE模型和相關(guān)技術(shù)的讀者,可以通過相關(guān)鏈接獲取技術(shù)報(bào)告和項(xiàng)目文件預(yù)覽。這些資料將幫助讀者更深入地了解華為在AI領(lǐng)域的最新成果和創(chuàng)新技術(shù)。