華為推出準萬億參數(shù)盤古Ultra MoE模型
發(fā)布:2025-5-31 12:32 | 作者:
dfffds | 來源:本站 | 查看:14次 | 字號:
小 中 大
在線python運行 5月30日, 華為推出全新AI模型——盤古 Ultra MoE,其參數(shù)規(guī)模高達7180億。這一準萬億參數(shù)的MoE(Mixture of Experts)模型,全程在華為昇騰 AI 計算平臺上進行訓(xùn)練,意味著華為在超大規(guī)模模型訓(xùn)練領(lǐng)域取得了重大突破。盤古 Ultra MoE 的成功訓(xùn)練,得益于盤古團隊提出的創(chuàng)新技術(shù)。其中,Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)的引入,有效解決了超大規(guī)模模型訓(xùn)練中的梯度異常和范數(shù)波動問題。通過在每個子層輸出后加入額外的層歸一化,并結(jié)合深度縮放的初始化方式,DSSN架構(gòu)確保了模型訓(xùn)練的長期穩(wěn)定性。此外,TinyInit 小初始化方法,采用標準差為 (2/(d·L)) 的初始化策略,進一步優(yōu)化了模型訓(xùn)練過程。在訓(xùn)練方法上,華為團隊首次披露了在昇騰 CloudMatrix 384 超節(jié)點上打通大稀疏比 MoE 強化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù)。這一技術(shù)的突破,使得 RL 后訓(xùn)練正式進入超節(jié)點集群時代,為強化學(xué)習(xí)在超大規(guī)模模型中的應(yīng)用奠定了基礎(chǔ)。在5月初發(fā)布的預(yù)訓(xùn)練系統(tǒng)加速技術(shù)基礎(chǔ)上,華為團隊在不到一個月的時間內(nèi)完成了新一輪迭代升級。此次升級包括:適配昇騰硬件的自適應(yīng)流水掩蓋策略,進一步優(yōu)化算子執(zhí)行序,降低 Host-Bound,提升 EP 通信掩蓋;自適應(yīng)管理內(nèi)存優(yōu)化策略的開發(fā);數(shù)據(jù)重排實現(xiàn) DP 間 Attention 負載均衡;以及昇騰親和的算子優(yōu)化。這些技術(shù)的應(yīng)用,使得萬卡集群預(yù)訓(xùn)練 MFU(混合精度計算利用率)由30%大幅提升至41%。