華為推出準萬億參數(shù)盤古Ultra MoE模型

發(fā)布:2025-5-31 12:32 | 作者:dfffds | 來源:本站 | 查看:14次 | 字號: 小中大

在線python運行
5月30日，華為推出全新AI模型——盤古 Ultra MoE，其參數(shù)規(guī)模高達7180億。這一準萬億參數(shù)的MoE(Mixture of Experts)模型，全程在華為昇騰 AI 計算平臺上進行訓(xùn)練，意味著華為在超大規(guī)模模型訓(xùn)練領(lǐng)域取得了重大突破。
盤古 Ultra MoE 的成功訓(xùn)練，得益于盤古團隊提出的創(chuàng)新技術(shù)。其中，Depth-Scaled Sandwich-Norm(DSSN)穩(wěn)定架構(gòu)的引入，有效解決了超大規(guī)模模型訓(xùn)練中的梯度異常和范數(shù)波動問題。通過在每個子層輸出后加入額外的層歸一化，并結(jié)合深度縮放的初始化方式，DSSN架構(gòu)確保了模型訓(xùn)練的長期穩(wěn)定性。此外，TinyInit 小初始化方法，采用標準差為 (2/(d·L)) 的初始化策略，進一步優(yōu)化了模型訓(xùn)練過程。
在訓(xùn)練方法上，華為團隊首次披露了在昇騰 CloudMatrix 384 超節(jié)點上打通大稀疏比 MoE 強化學(xué)習(xí)(RL)后訓(xùn)練框架的關(guān)鍵技術(shù)。這一技術(shù)的突破，使得 RL 后訓(xùn)練正式進入超節(jié)點集群時代，為強化學(xué)習(xí)在超大規(guī)模模型中的應(yīng)用奠定了基礎(chǔ)。
在5月初發(fā)布的預(yù)訓(xùn)練系統(tǒng)加速技術(shù)基礎(chǔ)上，華為團隊在不到一個月的時間內(nèi)完成了新一輪迭代升級。此次升級包括：適配昇騰硬件的自適應(yīng)流水掩蓋策略，進一步優(yōu)化算子執(zhí)行序，降低 Host-Bound，提升 EP 通信掩蓋;自適應(yīng)管理內(nèi)存優(yōu)化策略的開發(fā);數(shù)據(jù)重排實現(xiàn) DP 間 Attention 負載均衡;以及昇騰親和的算子優(yōu)化。這些技術(shù)的應(yīng)用，使得萬卡集群預(yù)訓(xùn)練 MFU(混合精度計算利用率)由30%大幅提升至41%。

打印 | 收藏此頁 | 推薦給好友 | 舉報

我也來說兩句查看全部回復(fù)

青草久久久国产线免费,日韩性色一区二区三区,亚洲v天堂国产v,欧美精品中文字幕乱码免费

作者

其它日志

轉(zhuǎn)至家鄉(xiāng)記錄日志 你的位置：洋溪資訊 槎溪信息 >> 家鄉(xiāng)記錄日志 >> 日志列表 >> dfffds的日志 >> 詳細內(nèi)容

華為推出準萬億參數(shù)盤古Ultra MoE模型

轉(zhuǎn)至家鄉(xiāng)記錄日志你的位置：洋溪資訊槎溪信息 >> 家鄉(xiāng)記錄日志 >> 日志列表 >> dfffds的日志 >> 詳細內(nèi)容