MolmoMotion：语言引导的3D运动预测

语言指令驱动3D运动预测：MolmoMotion让AI学会“预见未来” 在计算机视觉领域，机器已经非常擅长“感知”运动——给定一段视频，现代模型可以高精度地追踪物体和点在场景中的移动轨迹。但感知本质上是回顾性的：它解释的是已经发生的运动。而许多我们想要构建的系统和应用，需要的是“向前看”的能力。比如，一个伸手去拿杯子的机器人，必须在触碰杯子之前就预判杯子会如何移动；一个视频生成器，如果要生成物理上合理的连续帧，就必须知道接下来会发生什么样的真实运动。预测运动比观察运动更难，但在很多场景下也更有用。正是基于这一思路，AI研究机构Ai2（艾伦人工智能研究所）发布了MolmoMotion——一个全新的运动预测模型。给定一个视频帧、标记在物体上的3D点以及描述预期动作的文字指令（例如“移动并旋转桌上装有水果的木碗”），MolmoMotion就能预测这些点在接下来几秒内会在3D空间中如何移动，其表现显著优于现有的预测方法。 MolmoMotion的核心创新在于其高效的运动表征方式：它将运动表示为附着在物体上的3D点（位于世界坐标系中），这种表征方式无需渲染完整视频就能捕捉运动。研究团队选择了这种方案，因为它需要一种通用的运动表征，同时满足三个特性：类别无关（不局限于人体、手部、刚体等任何固定类别的模板）、视角稳定（相同的物理运动在不同摄像头和视角下应保持一致）、可直接被下游系统使用（需要推理物理运动的系统能直接调用）。在团队考虑过的各种表征方案中，这是唯一同时满足这三点的。一组稀疏的表面点可以描述刚性、铰接式甚至（在一定限度内）可变形运动，而无需假设被移动物体的类型。由于这些点位于共享的世界坐标系中，它们的轨迹在摄像头运动和视角变化下保持稳定。同时，由于它们是3D空间中紧凑的显式轨迹，可以直接传递给机器人策略或视频生成模型等系统。在预测轨迹时，MolmoMotion以Molmo 2作为骨干模型，使其能够将语言指令与图像中的物体和点关联起来。给定一段短视频历史、一个动作描述以及一组带有初始3D位置的查询点，模型首先识别出指令所指的物体、查询点以及所描述的运动，然后预测未来3D点的轨迹。除了模型本身，团队还同步发布了MolmoMotion-1M数据集——这是目前最大的、与动作描述配对的3D点轨迹数据集，来源于116万段视频。同时发布的还有PointMotionBench基准测试集，这是一个经过人工验证、专门用于衡量以物体为中心的3D运动预测准确度的基准，包含2700个视频片段。研究团队发现，像MolmoMotion这样的运动预测模型在多种下游任务中都能发挥作用，从机器人规划到可控视频生成。目前，模型权重、MolmoMotion-1M数据集以及PointMotionBench基准测试均已开源，供社区研究、改进和定制。对于跨境电商卖家而言，这一技术未来可能应用于商品展示视频的自动生成、仓储物流机器人的路径规划，或是AR/VR购物体验中的物体交互模拟——让AI不仅能“看”到商品，还能“预判”它在真实世界中的运动方式。

留言 · 0 条