每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

信赖域奖励优化和近端逆奖励优化算法

Created by
  • Haebom

作者

陈阳、邹梦琳、张嘉琪、张一坦、杨俊毅、Gael Gendron、张利波、刘佳谋、Michael J. Witbrock

逆向强化学习:信任区域奖励优化(TRRO)

大纲

本文探讨了逆强化学习 (IRL),它通过学习奖励函数来解释专家的演示。传统的对抗性(极小极大)IRL 方法会导致学习不稳定,而近期的非对抗性方法则通过基于能量的公式共同学习奖励和策略,但缺乏正式的保证。为了弥补这一缺陷,本研究表明,现有的非对抗性方法可以最大化专家行为的可能性。基于此,我们提出了一个信任区域奖励优化 (TRRO) 框架,用于最小化预期回报差异。TRRO 通过最小化-最大化过程保证可能性的单调递增,并使用实用算法近端逆奖励优化 (PIRO) 实现。PIRO 在 MuJoCo 和 Gym-Robotics 基准测试以及现实世界的动物行为建模任务中展现出较高的样本效率,其性能与最先进的基线相当或更佳。

Takeaways,Limitations

Takeaways:
TRRO 框架提供与 IRL 中的信任区域策略优化 (TRPO) 类似的稳定性保证。
PIRO 是一种实用且稳定的 IRL 算法,具有较高的采样效率,表现出优异的性能。
本研究对现有的非对抗性IRL方法提出了统一的观点并提供了理论基础。
Limitations:
仅从摘要中很难掌握论文的具体 Limitations(例如,算法复杂性、某些环境下的性能限制等)。
可能需要对实际应用中的泛化性能进行进一步研究。
👍