评分标准奖励 (RaR) 是一种基于策略的强化学习方法,它通过在医疗保健和科学领域使用基于评分标准的反馈,将可验证奖励强化学习 (RLVR) 扩展到可验证领域之外。RaR 评估了几种将评分标准反馈聚合为奖励的策略,并在 HealthBench 上实现了高达 31% 的相对提升,在 GPQA-Diamond 上实现了 7% 的相对提升,其表现优于以流行的大型语言模型 (LLM) 作为评判基准(后者依赖于基于李克特的奖励)。RaR 适用于多种评估形式,并在基于评分标准的任务和多项选择任务中均表现出色。