每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Moto:潜在运动标记作为从视频学习机器人操作的桥接语言

Created by
  • Haebom

作者

陈毅、葛玉英、唐伟良、李一卓、葛一晓、丁明宇、单英、刘锡辉

Moto:机器人操作的无监督运动令牌预训练

大纲

受大规模语言模型成功的启发,本文提出了一种生成式词典学习方法,利用丰富的视频数据进行机器人学习。具体而言,我们的目标是学习用于机器人操作任务的有效自回归词典学习的表征。为此,我们引入了 Moto,它通过潜在运动标记器(Latent Motion Tokenizer)无监督地从视频中学习运动的“语言”,该标记器将视频内容转换为潜在运动标记序列。Moto-GPT 通过运动标记自回归获得了丰富的视觉运动知识。经过预训练后,它展现出生成语义可解释的运动标记、预测运动轨迹并评估轨迹合理性的能力。为了将学习到的运动先验知识迁移到实际的机器人运动中,我们实施了一种联合微调策略,将潜在运动标记预测与实际的机器人控制无缝连接。实验结果表明,经过微调的 Moto-GPT 在机器人操作基准测试中展现出卓越的鲁棒性和效率,证明了从视频数据到下游视觉操作任务的知识迁移的有效性。

Takeaways, Limitations

Takeaways:
提出了一种利用视频数据提高机器人学习性能的新方法。
以无监督的方式学习运动表示可以提高向真实机器人运动的可转移性。
Moto-GPT 提供运动预测和轨迹评估等多种功能。
通过实验证明了机器人操作基准的卓越性能。
Limitations:
论文中提出的Limitations并未明确提及。(由于仅提供了论文摘要,因此很难确定Limitations的内容。)
👍