每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

重新思考 RLHF 中的 KL 正则化:从价值估计到梯度优化

Created by
  • Haebom

作者

刘克昭、Jason Klein Liu、陈明涛、刘一鸣

大纲

通过分析 RLHF 中 KL 散度损失的实现,我们提出了一个统一的框架,该框架连接了“k_n 作为奖励”和“k_n 作为损失”两种实现方式。该框架阐明了逆 KL (RKL) 正则化的原理,并证明了在在线策略条件下,“k_2 作为损失”与“k_1 作为奖励”梯度等价。此外,我们证明了“k_3 作为损失”是一种有偏近似,并提出了一种纠正离策略实现中可能出现的偏差的方法。

Takeaways,Limitations

Takeaways:
通过全面了解 KL 散度损失的实施方式,我们有助于提高 RLHF 系统的稳定性和效率。
我们通过证明“K_2 作为损失”和“k_1 作为奖励”的等价性,提出了 RKL 目标的正确实现。
我们指出了“K_3作为损失”的局限性,并提出了一种解决离策略实施中的偏差问题的方法。
Limitations:
本文可能没有包含在实际 RLHF 系统中提出的方法的应用和性能验证的具体细节。
可能缺乏对所提出的框架对其他 KL 散度损失相关研究的影响的分析。
由于此分析仅限于在线策略条件,因此可能需要对非策略环境进行额外研究。
👍