每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Vidar:用于通用操作的具身视频传播模型

Created by
  • Haebom

作者

冯耀、谭恒凯、毛欣怡、向晨东、刘国栋、黄书河、苏航、朱军

大纲

Vidar 旨在将广义操控能力扩展到新型机器人平台。本研究提出了一种低容量自适应范式,用可迁移的视频先验信息取代大多数平台特定数据。Vidar 由一个基于可泛化先验信息实现的视频扩散模型和一个基于核心策略分离的掩蔽动力学模型 (MIDM) 适配器组成。该视频扩散模型已在互联网规模的视频上进行预训练,并基于集成机器人、摄像头、任务和场景上下文的统一观测空间,针对三个真实机器人平台上的 75 万条多视角轨迹进行了领域自适应。MIDM 模块学习密集的、无标签的动作相关像素掩码,将先验信息映射到目标平台的动作空间,同时抑制干扰项。本研究利用生成视频先验信息,从大规模、无标签的视频中隐式捕捉可供性、接触动力学和物理连贯性,从而对合理且时间一致的交互分布进行建模。 Vidar 仅需在新型机器人上进行 20 分钟的人工演示,其性能就优于现有的基于 VLA 的模型,并且可以很好地推广到未知的任务、背景和摄像机布局。

Takeaways, Limitations

我们提出了一种可扩展的“一本词典,多个平台”方法,具有强大、低成本的视频词典信息和最少的机器人对齐。
它减少了新机器人大规模数据收集的需要,实现了高效的适应。
通过隐形任务、背景和相机布局进行概括。
论文中没有具体说明Limitations。
👍