AI工具AI评分 一般 (59)AI 中文改写

NVIDIA NeMo AutoModel加速Transformer微调

1 小时前 2 阅读来源:HuggingFace Blog

AI 中文改写

原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接

NVIDIA联手HuggingFace,让MoE大模型微调速度飙升3.7倍,显存还省了三成。这项名为NeMo AutoModel的开源工具,直接套用了Transformers v5的API接口,用户只需改一行import代码,就能让Qwen3、DeepSeek V3等热门MoE架构的训练效率大幅提升。 背景是MoE(混合专家模型)已成为前沿大模型的主流架构,但它的训练效率一直是个难题。路由token到数百个专家、将专家矩阵乘法融合到单一内核、跨GPU分片权重、让通信与计算重叠——这些优化需要超越通用库的基础设施。HuggingFace在Transformers v5中首次为MoE提供了原生支持,包括专家后端、动态权重加载和分布式执行的张量并行方案。但v5缺少一个关键组件:DeepEP,即让专家间的通信与计算重叠的技术。NVIDIA的NeMo AutoModel正是补上了这块拼图,它通过继承AutoModelForCausalLM,加入了专家并行、DeepEP融合全对全调度和TransformerEngine内核,同时利用v5的可逆权重转换机制,无需为每个模型单独编写检查点加载代码,最终输出标准的HuggingFace检查点,vLLM和SGLang等推理框架可直接加载。 实测数据很直观:在微调MoE模型时,NeMo AutoModel相比原生Transformers v5,训练吞吐量提升3.4到3.7倍,GPU内存占用减少29%到32%。测试覆盖了从16节点训练的NVIDIA Nemotron 3 Ultra 550B A55B,到单节点可跑的Qwen3-30B-A3B和Nemotron 3 Nano 30B A3B。对于Qwen3、Nemotron、GPT-OSS和DeepSeek V3等主流MoE架构,NeMo AutoModel内置了手调优化的TransformerEngine注意力、融合线性层和自定义专家内核;其他架构则回退到原生HF,但仍会应用Liger内核补丁等优化。用户只需在加载模型时传入device_mesh配置,即可实现多GPU训练,无需额外代码重写。对中国跨境电商卖家而言,这意味着用更少的GPU资源微调更大规模的MoE模型,无论是优化商品推荐还是客服对话,都能显著降低算力成本。

以上为 AI 中文改写版本,如需查看英文原文请访问

英文原文 · HuggingFace Blog

内容版权归原作者及 HuggingFace Blog 所有

这篇文章对你有帮助吗?
觉得有用?分享给更多人

留言 · 0

暂无留言,来说两句吧

留言经合规过滤后展示,禁止违法内容