本文探讨了逆强化学习 (IRL),它通过学习奖励函数来解释专家的演示。传统的对抗性(极小极大)IRL 方法会导致学习不稳定,而近期的非对抗性方法则通过基于能量的公式共同学习奖励和策略,但缺乏正式的保证。为了弥补这一缺陷,本研究表明,现有的非对抗性方法可以最大化专家行为的可能性。基于此,我们提出了一个信任区域奖励优化 (TRRO) 框架,用于最小化预期回报差异。TRRO 通过最小化-最大化过程保证可能性的单调递增,并使用实用算法近端逆奖励优化 (PIRO) 实现。PIRO 在 MuJoCo 和 Gym-Robotics 基准测试以及现实世界的动物行为建模任务中展现出较高的样本效率,其性能与最先进的基线相当或更佳。