英伟达发布Cosmos 3：首个开放物理AI推理与行动全模态模型

NVIDIA 今日正式发布 Cosmos 3，并将其开源托管于 Hugging Face 平台。这是首个面向物理 AI 的开放全模态模型（Omni-model），将世界生成、物理推理与动作生成统一整合进单一模型，无需再在多个模型和推理管线之间切换。 Cosmos 3 的核心变化：从多模型到单一全模态 与之前的 Cosmos 版本相比，Cosmos 3 最大的变革在于其架构——它基于混合 Transformer（Mixture-of-Transformers, MoT）构建，是一个真正的全模态模型。此前，开发者需要分别使用 Cosmos Predict（世界生成）、Cosmos Transfer（受控生成）、Cosmos Reason（场景理解）和 Cosmos Policy（策略生成）等多个独立模型。现在，Cosmos 3 在单次统一前向传播中即可完成推理和多模态生成。具体来说，一个模型就能实现： - 从文本、图像、视频或动作输入生成真实且物理上合理的视频世界 - 推理运动、因果关系、空间关系等物理属性 - 基于当前状态预测未来的视频和动作序列 为什么这对物理 AI 至关重要 Cosmos 3 旨在帮助构建能够理解真实世界的物理 AI 系统——不仅仅是像素和 token，而是运动、因果、物理和动作。无论是训练机器人叠衣服、构建自动驾驶仿真，还是为仓库安全场景生成合成训练数据，Cosmos 3 都是为这些用例设计的基座模型。 架构细节：MoT 统一处理多模态 Cosmos 3 基于 MoT 骨干网络，所有模态——文本、图像、视频、音频和动作——都在统一架构中处理。每个模态先由专用编码器编码（视觉理解用 ViT，视觉/音频生成用 VAE，动作用领域感知向量），然后投影到共享表示空间。输入序列被拆分为两个子序列： - 自回归（AR）子序列：通过下一个 token 预测处理推理和理解 - 扩散（DM）子序列：通过迭代去噪处理生成 AR 和 DM token 在每个 Transformer 层内使用独立的参数集，但通过联合注意力机制交互——这使得单个模型可以在 VLM、视频生成器、前向/逆向动力学模型或机器人策略之间无缝切换，无需任何架构变更。 模型版本与部署 本次发布的 Cosmos 3 包含两个模型尺寸，针对不同部署场景优化： - Cosmos 3 Nano：80 亿参数模型（80 亿推理器 + 80 亿生成器），针对高效推理优化，设计在 RTX PRO 6000 GPU 等工作站级算力上运行。 - Cosmos 3 Super：更大规模的模型，适用于云端和企业级部署。 本次发布包含的内容 - Cosmos 3 Super 和 Cosmos 3 Nano 的模型卡与许可协议（Hugging Face） - Cosmos 3 Diffusers 集成，用于生成管线 - 后训练脚本，支持在自有数据上训练 Cosmos 3（GitHub 开源） - 面向物理 AI 的开放合成数据生成（SDG）数据集对于中国跨境电商卖家和 AI 从业者而言，Cosmos 3 的开源意味着：机器人自动化、仓储物流仿真、自动驾驶场景生成等物理 AI 应用的门槛大幅降低。开发者可以直接在自有数据上微调模型，生成高度逼真的合成训练数据，而无需维护多个独立模型管线。

留言 · 0 条