本文提出了 MimicDreamer,这是一个用于训练视觉语言动作 (VLA) 模型的全新框架,它利用现成的人类演示视频,而非收集昂贵的机器人交互数据。MimicDreamer 通过对齐视觉、视点和动作数据,将人类演示视频转换为机器人可用的格式,从而支持 VLA 模型训练。具体而言,H2R Aligner 根据人类演示视频生成机器人演示视频,EgoStabilizer 稳定视点,动作对齐将人手轨迹映射到机器人坐标系,以生成机器人关节指令。实验结果表明,使用 MimicDreamer 生成的合成数据训练的 VLA 模型能够在少量试验内对真实机器人执行任务,其性能优于仅使用真实机器人数据训练的模型。