受大规模语言模型成功的启发,本文提出了一种生成式词典学习方法,利用丰富的视频数据进行机器人学习。具体而言,我们的目标是学习用于机器人操作任务的有效自回归词典学习的表征。为此,我们引入了 Moto,它通过潜在运动标记器(Latent Motion Tokenizer)无监督地从视频中学习运动的“语言”,该标记器将视频内容转换为潜在运动标记序列。Moto-GPT 通过运动标记自回归获得了丰富的视觉运动知识。经过预训练后,它展现出生成语义可解释的运动标记、预测运动轨迹并评估轨迹合理性的能力。为了将学习到的运动先验知识迁移到实际的机器人运动中,我们实施了一种联合微调策略,将潜在运动标记预测与实际的机器人控制无缝连接。实验结果表明,经过微调的 Moto-GPT 在机器人操作基准测试中展现出卓越的鲁棒性和效率,证明了从视频数据到下游视觉操作任务的知识迁移的有效性。