每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

CUPID:利用影响力函数整理机器人喜爱的数据

Created by
  • Haebom

作者

克里斯托弗·阿吉亚、罗汉·辛哈、杨靖云、丽卡·安东诺瓦、马可·帕沃内、西村春树、玛莎·伊特金娜、珍妮特·博格

大纲

本文强调,机器人模仿学习中的策略性能高度依赖于演示数据的质量和组成,然而,准确理解单个演示如何影响闭环任务的成功或失败等结果却极具挑战性。因此,我们提出了 CUPID,这是一种基于新颖的影响函数理论公式的机器人数据管理方法,用于模拟学习策略。CUPID 通过考虑一组评估 rollout 来估计每次训练演示对策略预期回报的影响,从而根据演示对策略闭环性能的影响对其进行排序和选择。CUPID 用于数据管理,通过过滤掉对策略性能不利的训练演示,并筛选出最有可能改进策略的新颖轨迹。仿真和硬件实验表明,该方法能够持续识别出在测试时推动性能的数据。例如,在模拟的 RoboMimic 基准测试中,通过使用不到 33% 的管理数据进行训练,即可实现最先进的扩散策略,并且在硬件上也观察到了类似的性能提升。此外,硬件实验表明,它可以识别对分布偏移具有鲁棒性的策略,隔离虚假相关性,甚至提升常见机器人策略的训练后性能。代码和视频可在https://cupid-curation.github.io获取。

Takeaways,Limitations

Takeaways:
提出了一种通过模仿学习中的数据管理来提高政策绩效的新方法。
证明即使使用少量数据也能实现尖端性能的可行性。
验证对分布变化的稳健性和消除虚假相关性的可能性。
提出提高一般机器人策略性能的可能性。
Limitations:
所提出方法的有效性可能因所使用的数据集和任务而异。
计算影响函数的计算成本可能很高。
需要进一步研究实际机器人系统中的泛化性能。
👍