MolmoMotion:语言引导的3D运动预测
4 天前 2 阅读来源:HuggingFace Blog
AI 中文改写
原文为英文,由 AI 改写为中文报道,内容完整。如需参考原文请点击下方链接
语言指令驱动3D运动预测:MolmoMotion让AI学会“预见未来”
在计算机视觉领域,机器已经非常擅长“感知”运动——给定一段视频,现代模型可以高精度地追踪物体和点在场景中的移动轨迹。但感知本质上是回顾性的:它解释的是已经发生的运动。而许多我们想要构建的系统和应用,需要的是“向前看”的能力。比如,一个伸手去拿杯子的机器人,必须在触碰杯子之前就预判杯子会如何移动;一个视频生成器,如果要生成物理上合理的连续帧,就必须知道接下来会发生什么样的真实运动。预测运动比观察运动更难,但在很多场景下也更有用。正是基于这一思路,AI研究机构Ai2(艾伦人工智能研究所)发布了MolmoMotion——一个全新的运动预测模型。给定一个视频帧、标记在物体上的3D点以及描述预期动作的文字指令(例如“移动并旋转桌上装有水果的木碗”),MolmoMotion就能预测这些点在接下来几秒内会在3D空间中如何移动,其表现显著优于现有的预测方法。
MolmoMotion的核心创新在于其高效的运动表征方式:它将运动表示为附着在物体上的3D点(位于世界坐标系中),这种表征方式无需渲染完整视频就能捕捉运动。研究团队选择了这种方案,因为它需要一种通用的运动表征,同时满足三个特性:类别无关(不局限于人体、手部、刚体等任何固定类别的模板)、视角稳定(相同的物理运动在不同摄像头和视角下应保持一致)、可直接被下游系统使用(需要推理物理运动的系统能直接调用)。在团队考虑过的各种表征方案中,这是唯一同时满足这三点的。一组稀疏的表面点可以描述刚性、铰接式甚至(在一定限度内)可变形运动,而无需假设被移动物体的类型。由于这些点位于共享的世界坐标系中,它们的轨迹在摄像头运动和视角变化下保持稳定。同时,由于它们是3D空间中紧凑的显式轨迹,可以直接传递给机器人策略或视频生成模型等系统。在预测轨迹时,MolmoMotion以Molmo 2作为骨干模型,使其能够将语言指令与图像中的物体和点关联起来。给定一段短视频历史、一个动作描述以及一组带有初始3D位置的查询点,模型首先识别出指令所指的物体、查询点以及所描述的运动,然后预测未来3D点的轨迹。
除了模型本身,团队还同步发布了MolmoMotion-1M数据集——这是目前最大的、与动作描述配对的3D点轨迹数据集,来源于116万段视频。同时发布的还有PointMotionBench基准测试集,这是一个经过人工验证、专门用于衡量以物体为中心的3D运动预测准确度的基准,包含2700个视频片段。研究团队发现,像MolmoMotion这样的运动预测模型在多种下游任务中都能发挥作用,从机器人规划到可控视频生成。目前,模型权重、MolmoMotion-1M数据集以及PointMotionBench基准测试均已开源,供社区研究、改进和定制。对于跨境电商卖家而言,这一技术未来可能应用于商品展示视频的自动生成、仓储物流机器人的路径规划,或是AR/VR购物体验中的物体交互模拟——让AI不仅能“看”到商品,还能“预判”它在真实世界中的运动方式。
这篇文章对你有帮助吗?
觉得有用?分享给更多人
留言 · 0 条
暂无留言,来说两句吧
