九九久久久久午夜精选,欧美一二区视频,国产成人精品一区二三区2022,日本色妞,久久久99精品,亚洲国产精品久久精品成人,91热久久免费频精品99欧美

您當前的位置是:  首頁 > 資訊 > 國內(nèi) >
 首頁 > 資訊 > 國內(nèi) >

螞蟻集團推兩款MoE大模型,國產(chǎn)芯片訓練降本顯著

2025-03-24 15:28:56   作者:   來源:   評論:0  點擊:


  3月24日,據(jù)證券時報報道,近日,螞蟻集團 Ling 團隊在預印版 Arxiv 平臺發(fā)表技術成果論文《每一個 FLOP 都至關重要:無需高級 GPU 即可擴展 3000 億參數(shù)混合專家 LING 大模型》,宣布推出兩款不同規(guī)模的 MoE (混合專家)大語言模型 —— 百靈輕量版(Ling-Lite)與百靈增強版(Ling-Plus),并提出一系列創(chuàng)新方法,實現(xiàn)在低性能硬件上高效訓練大模型,顯著降低成本。

  據(jù)IT之家了解,百靈輕量版參數(shù)規(guī)模為 168 億(激活參數(shù) 27.5 億),增強版基座模型參數(shù)規(guī)模高達 2900 億(激活參數(shù) 288 億),性能均達行業(yè)領先水平。實驗表明,其 3000 億參數(shù)的 MoE 大模型可在使用國產(chǎn) GPU 的低性能設備上完成高效訓練,性能與完全使用英偉達芯片、同規(guī)模的稠密模型及 MoE 模型相當。

  當前,MoE 模型訓練通常依賴英偉達 H100 / H800 等高性能 GPU,成本高昂且芯片短缺,限制了其在資源受限環(huán)境中的應用。螞蟻集團 Ling 團隊提出“不使用高級 GPU”擴展模型的目標,通過創(chuàng)新訓練策略,突破資源與預算限制。具體策略包括:架構(gòu)與訓練策略革新,采用動態(tài)參數(shù)分配與混合精度調(diào)度技術;升級訓練異常處理機制,自適應容錯恢復系統(tǒng)縮短中斷響應時間;優(yōu)化模型評估流程,自動化評測框架壓縮驗證周期超 50%;突破工具調(diào)用能力,基于知識圖譜的指令微調(diào)提升復雜任務執(zhí)行精度。

  在五種不同硬件配置下,Ling 團隊對 9 萬億個 token 進行 Ling-Plus 預訓練。結(jié)果顯示,使用高性能硬件配置訓練 1 萬億 token 的預訓練成本約 635 萬元人民幣,而采用螞蟻優(yōu)化方法后,低規(guī)格硬件訓練成本降至 508 萬元左右,節(jié)省近 20%,且性能與阿里通義 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相當。

  此前,DeepSeek 通過算法創(chuàng)新及工程優(yōu)化,使用英偉達 H800 訓練出性能頂尖的 V3 與 R1 模型,為降低成本、提高效率開辟新道路。螞蟻集團的技術成果若得到驗證推廣,將助力國產(chǎn)大模型尋找成本更低、效率更高的國產(chǎn)芯片或其他替代方案,進一步降低對英偉達芯片的依賴。

【免責聲明】本文僅代表作者本人觀點,與CTI論壇無關。CTI論壇對文中陳述、觀點判斷保持中立,不對所包含內(nèi)容的準確性、可靠性或完整性提供任何明示或暗示的保證。請讀者僅作參考,并請自行承擔全部責任。

相關閱讀:

專題

CTI論壇會員企業(yè)

新昌县| 邵武市| 喜德县| 西青区| 板桥市| 车险| 灵台县| 乐清市| 丘北县| 沙洋县| 获嘉县| 定襄县| 确山县| 上犹县| 宁国市| 乌鲁木齐县| 攀枝花市| 广元市| 布尔津县| 永安市| 时尚| 剑川县| 浠水县| 常山县| 临武县| 遂昌县| 河源市| 加查县| 海安县| 缙云县| 营口市| 抚顺市| 柞水县| 曲沃县| 永新县| 东乡县| 高邮市| 获嘉县| 藁城市| 资阳市| 日照市|