每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

VLM 看,机器人做:通过视觉语言模型将人类演示视频转化为机器人行动计划

Created by
  • Haebom

作者

王北辰、张珏晓、董树文、方欧文、陈峰

大纲

本文提出了一种名为 SeeDo 的创新方法,该方法利用视觉语言模型 (VLM) 解读人类演示视频并生成机器人任务计划。SeeDo 是一个集成关键帧选择、视觉识别和 VLM 推理的流程。它允许机器人通过观看人类演示视频(See)并向机器人解释该计划(Do)来执行任务计划。我们构建了一个包含各种拾取和放置任务演示视频的数据集,并通过与多个基于 VLM 的先进视频输入基线模型进行比较,实验验证了 SeeDo 的卓越性能。我们将生成的任务计划部署到模拟环境和真实的机械臂上。

Takeaways, Limitations

Takeaways:
我们提出了一种使用 VLM 从人类演示视频生成机器人任务计划的新方法。
构建集成关键帧选择、视觉识别和 VLM 推理的有效管道。
在各种任务和环境中均具有经过验证的性能。
在模拟和真实机器人环境中成功部署。
Limitations:
需要对泛化性能进行进一步研究,并对有限的拾取和放置任务进行实验。
对于更加复杂和多样化的任务,需要进行可扩展性验证。
需要提高 VLM 对解释错误的稳健性。
需要考虑现实环境中的噪音和不确定性。
👍