每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

以评分标准作为奖励:超越可验证领域的强化学习

Created by
  • Haebom

作者

Anisha Gunjal、Anthony Wang、Elaine Lau、Vaskar Nath、Yunzhong He、Bing Liu、Sean Hendryx

大纲

评分标准奖励 (RaR) 是一种基于策略的强化学习方法,它通过在医疗保健和科学领域使用基于评分标准的反馈,将可验证奖励强化学习 (RLVR) 扩展到可验证领域之外。RaR 评估了几种将评分标准反馈聚合为奖励的策略,并在 HealthBench 上实现了高达 31% 的相对提升,在 GPQA-Diamond 上实现了 7% 的相对提升,其表现优于以流行的大型语言模型 (LLM) 作为评判基准(后者依赖于基于李克特的奖励)。RaR 适用于多种评估形式,并在基于评分标准的任务和多项选择任务中均表现出色。

Takeaways,Limitations

介绍基于策略的强化学习方法 RaR:通过利用基于规则的反馈将 RLVR 扩展到可验证领域之外。
在 HealthBench 和 GPQA-Diamond 上进行的医学和科学领域的实验结果:RaR 的表现优于 LLM 作为评判基准。
适应各种评估形式,减少因评委人数少、评委规模小而造成的绩效差异。
Limitations 在论文中没有指定。
👍