每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

MimicDreamer:协调人类和机器人演示,实现可扩展的 VLA 训练

Created by
  • Haebom

作者

李浩云、张伊凡、欧阳润奇、王晓峰、朱铮、杨志勤、张振涛、王博源、倪超军、秦文康、陈新泽、叶云、黄冠、宋振波、王新刚

大纲

本文提出了 MimicDreamer,这是一个用于训练视觉语言动作 (VLA) 模型的全新框架,它利用现成的人类演示视频,而非收集昂贵的机器人交互数据。MimicDreamer 通过对齐视觉、视点和动作数据,将人类演示视频转换为机器人可用的格式,从而支持 VLA 模型训练。具体而言,H2R Aligner 根据人类演示视频生成机器人演示视频,EgoStabilizer 稳定视点,动作对齐将人手轨迹映射到机器人坐标系,以生成机器人关节指令。实验结果表明,使用 MimicDreamer 生成的合成数据训练的 VLA 模型能够在少量试验内对真实机器人执行任务,其性能优于仅使用真实机器人数据训练的模型。

Takeaways, Limitations

Takeaways:
利用人类演示视频可以降低获取机器人训练数据的成本。
利用我们的新框架 MimicDreamer 有效地弥合人类演示视频和机器人环境之间的差距。
利用合成数据来提高 VLA 模型的性能,获得比仅使用真实机器人数据更好的结果。
Limitations:
由于我们依靠人类演示数据来提高性能,因此结果可能会因人类演示数据的质量而异。
整体框架的性能可能受到 H2R Aligner、EgoStabilizer 和 Action Alignment 模块性能的限制。
仅给出了六个代表性操作任务的实验结果,因此需要进一步验证各种机器人环境和任务的泛化性能。
👍