AI工具AI评分 一般 (63)AI 中文改写

英伟达发布Cosmos 3:首个开放物理AI推理与行动全模态模型

20 天前 9 阅读来源:HuggingFace Blog

AI 中文改写

原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接

NVIDIA 今日正式发布 Cosmos 3,并将其开源托管于 Hugging Face 平台。这是首个面向物理 AI 的开放全模态模型(Omni-model),将世界生成、物理推理与动作生成统一整合进单一模型,无需再在多个模型和推理管线之间切换。 Cosmos 3 的核心变化:从多模型到单一全模态 与之前的 Cosmos 版本相比,Cosmos 3 最大的变革在于其架构——它基于混合 Transformer(Mixture-of-Transformers, MoT)构建,是一个真正的全模态模型。此前,开发者需要分别使用 Cosmos Predict(世界生成)、Cosmos Transfer(受控生成)、Cosmos Reason(场景理解)和 Cosmos Policy(策略生成)等多个独立模型。现在,Cosmos 3 在单次统一前向传播中即可完成推理和多模态生成。 具体来说,一个模型就能实现: - 从文本、图像、视频或动作输入生成真实且物理上合理的视频世界 - 推理运动、因果关系、空间关系等物理属性 - 基于当前状态预测未来的视频和动作序列 为什么这对物理 AI 至关重要 Cosmos 3 旨在帮助构建能够理解真实世界的物理 AI 系统——不仅仅是像素和 token,而是运动、因果、物理和动作。无论是训练机器人叠衣服、构建自动驾驶仿真,还是为仓库安全场景生成合成训练数据,Cosmos 3 都是为这些用例设计的基座模型。 架构细节:MoT 统一处理多模态 Cosmos 3 基于 MoT 骨干网络,所有模态——文本、图像、视频、音频和动作——都在统一架构中处理。每个模态先由专用编码器编码(视觉理解用 ViT,视觉/音频生成用 VAE,动作用领域感知向量),然后投影到共享表示空间。 输入序列被拆分为两个子序列: - 自回归(AR)子序列:通过下一个 token 预测处理推理和理解 - 扩散(DM)子序列:通过迭代去噪处理生成 AR 和 DM token 在每个 Transformer 层内使用独立的参数集,但通过联合注意力机制交互——这使得单个模型可以在 VLM、视频生成器、前向/逆向动力学模型或机器人策略之间无缝切换,无需任何架构变更。 模型版本与部署 本次发布的 Cosmos 3 包含两个模型尺寸,针对不同部署场景优化: - Cosmos 3 Nano:80 亿参数模型(80 亿推理器 + 80 亿生成器),针对高效推理优化,设计在 RTX PRO 6000 GPU 等工作站级算力上运行。 - Cosmos 3 Super:更大规模的模型,适用于云端和企业级部署。 本次发布包含的内容 - Cosmos 3 Super 和 Cosmos 3 Nano 的模型卡与许可协议(Hugging Face) - Cosmos 3 Diffusers 集成,用于生成管线 - 后训练脚本,支持在自有数据上训练 Cosmos 3(GitHub 开源) - 面向物理 AI 的开放合成数据生成(SDG)数据集 对于中国跨境电商卖家和 AI 从业者而言,Cosmos 3 的开源意味着:机器人自动化、仓储物流仿真、自动驾驶场景生成等物理 AI 应用的门槛大幅降低。开发者可以直接在自有数据上微调模型,生成高度逼真的合成训练数据,而无需维护多个独立模型管线。

以上为 AI 中文改写版本,如需查看英文原文请访问

英文原文 · HuggingFace Blog

内容版权归原作者及 HuggingFace Blog 所有

这篇文章对你有帮助吗?
觉得有用?分享给更多人

留言 · 0

暂无留言,来说两句吧

留言经合规过滤后展示,禁止违法内容