Vidar 旨在将广义操控能力扩展到新型机器人平台。本研究提出了一种低容量自适应范式,用可迁移的视频先验信息取代大多数平台特定数据。Vidar 由一个基于可泛化先验信息实现的视频扩散模型和一个基于核心策略分离的掩蔽动力学模型 (MIDM) 适配器组成。该视频扩散模型已在互联网规模的视频上进行预训练,并基于集成机器人、摄像头、任务和场景上下文的统一观测空间,针对三个真实机器人平台上的 75 万条多视角轨迹进行了领域自适应。MIDM 模块学习密集的、无标签的动作相关像素掩码,将先验信息映射到目标平台的动作空间,同时抑制干扰项。本研究利用生成视频先验信息,从大规模、无标签的视频中隐式捕捉可供性、接触动力学和物理连贯性,从而对合理且时间一致的交互分布进行建模。 Vidar 仅需在新型机器人上进行 20 分钟的人工演示,其性能就优于现有的基于 VLA 的模型,并且可以很好地推广到未知的任务、背景和摄像机布局。