每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过偏好实现自适应边际 RLHF

Created by
  • Haebom

作者

亚斯万斯·奇特普、普拉桑·辛哈尔、格雷格·达雷特、斯科特·尼库姆

大纲

基于边距的优化对于提升分类任务的泛化能力和鲁棒性至关重要。在强化学习人类反馈 (RLHF) 中的偏好学习奖励模型中,现有方法通常依赖于不存在、固定或仅仅是偏好评分函数的边距。然而,这些公式往往未能考虑不同偏好的强度,或依赖于来自评分的噪声边距信息。本文认为,对偏好强度进行建模可以提高泛化能力并实现更可靠的对齐。此外,许多使用自适应边距的现有方法都假设能够获得准确的偏好分数,而这对于人类来说可能难以可靠地提供。在本文中,我们提出了一种利用标注来指示偏好间偏好(即两个偏好中哪一个反映出更强的区分度)的方法。该顺序信号用于基于每个数据点推断自适应边距。此外,我们引入了 DPO-PoP,它是直接偏好优化 (DPO) 的扩展,它将自适应边距集成到偏好间偏好监督中,从而提升了判别能力和生成性能。实验表明,在 UltraFeedback 数据集上,所提出的方法优于纯 DPO、具有固定边距的 DPO 以及具有真实边距的 DPO。此外,我们证明了判别性能和生成性能之间存在权衡。也就是说,通过正确标记较弱的偏好来提高测试分类准确率,而牺牲较强的偏好可能会导致生成质量的下降。为了解决这种权衡问题,本文提出了两种用于收集偏好标签的采样策略:一种有利于判别性能,另一种有利于生成性能。

Takeaways, Limitations

Takeaways:
我们认为,对偏好强度进行建模可以改善概括和分类。
我们提出了一种新颖的方法(DPO-PoP),它使用偏好超越偏好来学习自适应边际。
DPO-PoP 的性能优于其他 DPO 变体。
我们揭示了判别性能和生成性能之间的权衡,并提出了一种采样策略来解决它。
Limitations:
实验仅限于 UltraFeedback 数据集,需要进一步验证对其他数据集的普遍性。
需要进一步详细分析两种采样策略的实际应用和性能比较。
缺乏对偏好到偏好标签的效率和成本的考虑。
👍