每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

为什么你的语言模型是一个糟糕的隐性奖励模型?

Created by
  • Haebom

作者

诺姆·拉辛、林勇、姚嘉瑞、桑吉夫·阿罗拉

大纲

本文研究了奖励模型 (RM),它在语言模型的训练后和推理流程中起着关键作用。特别地,我们重点介绍了最近的研究,这些研究表明所有语言模型都定义了一个隐式奖励模型 (IM-RM),而无需任何结构上的修改。与使用专用线性头的显式奖励模型 (EX-RM) 相比,IM-RM 的泛化性能较差,尤其是在分布外环境中。本研究探讨了 EX-RM 和 IM-RM 之间泛化性能差异的根本原因。

Takeaways, Limitations

IM-RM 更多地依赖于标记级别的表面线索,这导致在标记级别分布变化和分布环境中的泛化性能比 EX-RM 更差。
我们对之前的说法提出了反驳,即 IM-RM 在处理验证任务时比生成任务更困难。
我们强调,微妙的设计选择会对奖励模型的泛化行为产生重大影响。
👍