每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过人类干预进行预测偏好学习

Created by
  • Haebom

作者

蔡浩源、彭正浩、周博雷

大纲

本研究聚焦于人机参与学习,旨在通过人为干预来监控和纠正智能体的行为错误。为了克服现有方法在当前状态下纠正智能体行为的局限性,我们提出了基于人为干预的预测偏好学习 (PPL),以改进未来状态下的行为预测。PPL 利用人为干预中固有的偏好信号来预测未来的部署,并通过建立偏好范围 (L) 将每次人为干预引导到 L 个未来时间步。这提高了安全关键领域的学习效率,并减少了对人为演示的需求。我们的效率和泛化能力已通过自动驾驶和机器人操控的基准实验得到验证,理论分析表明,选择合适的偏好范围 (L) 可以限制算法的最优性差距。

Takeaways,Limitations

Takeaways:
通过改进未来状态下的动作预测来提高学习效率。
减少人工演示的需要。
适用于自动驾驶和机器人操作。
通过适当选择偏好范围 L 来确保算法的最优性。
Limitations:
依赖于选择适当的偏好范围 L 值。
性能可能会受到人为干预质量的影响。
👍