每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过成对比较获取在线评分标准

Created by
  • Haebom

作者

Mohammad Hossein Rezaei、Robert Vacareanu、王子豪、Clinton Wang、刘兵、何云中、Afra Feyza Akyurek

在线评分标准提取(OnlineRubrics)

大纲

本文论证了评分标准(Rubrics)为在开放式长答案问题上训练大规模语言模型(LLM)提供了一种灵活的方法,其中不应用可验证的奖励,而人类偏好则充当粗略信号。研究表明,使用基于评分标准的奖励的强化学习能够持续提升LLM的训练后表现。大多数现有方法在训练过程中依赖于静态评分标准。然而,这些静态评分标准容易受到奖励黑客攻击等行为的影响,并且无法捕捉训练过程中出现的新需求。本文介绍了在线评分标准引出(OnlineRubrics),这是一种通过对当前策略和参考策略的响应进行两两比较,在线动态地制定评估标准的方法。这种在线流程能够在训练过程中持续识别和减少错误。实验表明,与在AlpacaEval、GPQA、ArenaHard以及专家问题和评分标准验证集上单独使用静态评分标准进行训练相比,该方法持续实现了高达8%的提升。对提取的标准进行定性分析,确定了透明度、实用性、组织性和推理等关键主题。

Takeaways, Limitations

Takeaways:
在线评分标准提取方法通过动态生成评估标准来提高 LLM 培训绩效。
与基于静态标准的训练相比,它在各种基准测试中都表现出一致的性能改进。
提取的评分标准可用于识别 LLM 的特点和优势。
Limitations:
论文中未指定 Limitations 信息。
👍