每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Pref-GUIDE:通过基于偏好的学习,从实时人类反馈中进行持续策略学习

Created by
  • Haebom

作者

吉正然, 陈博渊

大纲

在训练强化学习智能体时,如果任务目标难以用密集奖励函数指定,人工反馈至关重要。现有方法依赖于离线轨迹比较来获取人工偏好,但在智能体必须动态调整的在线学习场景中,此类数据难以获取。在本研究中,我们提出了 Pref-GUIDE 框架,该框架将实时标量反馈转换为基于偏好的数据,以改进奖励模型学习,从而实现持续策略训练。Pref-GUIDE 通过将实时标量反馈转换为基于偏好的数据来改进奖励模型学习。Pref-GUIDE Individual 通过比较短窗口内的智能体动作并过滤掉模糊反馈来缓解时间不一致性。Pref-GUIDE Voting 通过聚合来自多个用户的奖励模型以形成共识偏好,进一步增强了鲁棒性。在三个具有挑战性的环境中,Pref-GUIDE 的表现显著优于标量反馈基准,其投票变体甚至优于专家设计的密集奖励。通过将标量反馈转化为结构化偏好并利用群体反馈,Pref-GUIDE 提供了一种可扩展且有原则的方法来利用在线强化学习中的人类输入。

Takeaways, Limitations

Takeaways:
我们提出了一个 Pref-GUIDE 框架,通过将实时标量反馈转换为基于偏好的数据来改进奖励模型学习。
Pref-GUIDE Individual 减轻了时间不一致性,而 Pref-GUIDE Voting 提高了稳健性。
它在三种环境中的表现都优于标量反馈基线。
我们提出了一种可扩展且有原则的方法来利用在线强化学习中的人类输入。
Limitations:
论文中没有具体说明其内容。
👍