每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

DISCO 平衡尺度:针对不平衡数据的自适应领域和难度感知强化学习

Created by
  • Haebom

作者

周宇航、朱静、钱胜义、赵卓凯、王希耀、刘晓宇、李明、徐派恒、艾伟、黄芙蓉

大纲

本文提出了领域感知的自洽策略优化 (DISCO),以解决群体相关策略优化 (GRPO) 中的 Limitations 问题。GRPO 是一种基于人类反馈的强化学习 (RLHF) 方法,无需学习价值函数即可展现出优异的性能。然而,当应用于不平衡的多领域数据(例如真实世界数据集)时,它容易受到偏向优势领域的学习的影响。DISCO 通过两种创新方法解决了这些问题:领域特定奖励调整和基于难度的奖励调整。领域特定奖励调整会考虑领域频率来重新调整奖励,而基于难度的奖励调整则利用提示级别的自洽性,优先学习不确定的提示,从而促进更公平、更有效的策略学习。实验结果表明,DISCO 在各种 LLM 和不平衡数据集上的表现比现有的 GRPO 变体高出 5%,并在多领域对齐基准测试中取得了最佳结果。

Takeaways, Limitations

Takeaways:
有效解决不平衡多域数据中的LLM对齐问题。
克服 GRPO 的 Limitations 并实现性能改进
展示基于领域和难度的奖励调整策略的有效性
在多领域对齐基准测试中实现新的最先进的性能。
通过开放代码和数据支持可重复性和后续研究
Limitations:
需要进一步验证所提出方法的泛化性能。
需要对各种类型的不平衡数据集进行大量实验。
需要与其他 RLHF 方法进行进一步的比较分析。
需要领域和难度定义的主观性以及由此产生的影响分析。
👍