英伟达发布Cosmos 3:首个开放物理AI推理与行动全模态模型
20 天前 9 阅读来源:HuggingFace Blog
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
NVIDIA 今日正式发布 Cosmos 3,并将其开源托管于 Hugging Face 平台。这是首个面向物理 AI 的开放全模态模型(Omni-model),将世界生成、物理推理与动作生成统一整合进单一模型,无需再在多个模型和推理管线之间切换。
Cosmos 3 的核心变化:从多模型到单一全模态
与之前的 Cosmos 版本相比,Cosmos 3 最大的变革在于其架构——它基于混合 Transformer(Mixture-of-Transformers, MoT)构建,是一个真正的全模态模型。此前,开发者需要分别使用 Cosmos Predict(世界生成)、Cosmos Transfer(受控生成)、Cosmos Reason(场景理解)和 Cosmos Policy(策略生成)等多个独立模型。现在,Cosmos 3 在单次统一前向传播中即可完成推理和多模态生成。
具体来说,一个模型就能实现:
- 从文本、图像、视频或动作输入生成真实且物理上合理的视频世界
- 推理运动、因果关系、空间关系等物理属性
- 基于当前状态预测未来的视频和动作序列
为什么这对物理 AI 至关重要
Cosmos 3 旨在帮助构建能够理解真实世界的物理 AI 系统——不仅仅是像素和 token,而是运动、因果、物理和动作。无论是训练机器人叠衣服、构建自动驾驶仿真,还是为仓库安全场景生成合成训练数据,Cosmos 3 都是为这些用例设计的基座模型。
架构细节:MoT 统一处理多模态
Cosmos 3 基于 MoT 骨干网络,所有模态——文本、图像、视频、音频和动作——都在统一架构中处理。每个模态先由专用编码器编码(视觉理解用 ViT,视觉/音频生成用 VAE,动作用领域感知向量),然后投影到共享表示空间。
输入序列被拆分为两个子序列:
- 自回归(AR)子序列:通过下一个 token 预测处理推理和理解
- 扩散(DM)子序列:通过迭代去噪处理生成
AR 和 DM token 在每个 Transformer 层内使用独立的参数集,但通过联合注意力机制交互——这使得单个模型可以在 VLM、视频生成器、前向/逆向动力学模型或机器人策略之间无缝切换,无需任何架构变更。
模型版本与部署
本次发布的 Cosmos 3 包含两个模型尺寸,针对不同部署场景优化:
- Cosmos 3 Nano:80 亿参数模型(80 亿推理器 + 80 亿生成器),针对高效推理优化,设计在 RTX PRO 6000 GPU 等工作站级算力上运行。
- Cosmos 3 Super:更大规模的模型,适用于云端和企业级部署。
本次发布包含的内容
- Cosmos 3 Super 和 Cosmos 3 Nano 的模型卡与许可协议(Hugging Face)
- Cosmos 3 Diffusers 集成,用于生成管线
- 后训练脚本,支持在自有数据上训练 Cosmos 3(GitHub 开源)
- 面向物理 AI 的开放合成数据生成(SDG)数据集
对于中国跨境电商卖家和 AI 从业者而言,Cosmos 3 的开源意味着:机器人自动化、仓储物流仿真、自动驾驶场景生成等物理 AI 应用的门槛大幅降低。开发者可以直接在自有数据上微调模型,生成高度逼真的合成训练数据,而无需维护多个独立模型管线。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
