每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

逐步引导策略优化:在 GRPO 中为错误推理着色

Created by
  • Haebom

作者

陈彼得、李小鹏、李子牛、陈曦、林天一

大纲

本文提出了一种利用强化学习 (RL) 提升大规模语言模型 (LLM) 推理能力的方法。现有的组相对策略优化 (GRPO) 方法存在一个局限性,即无法针对全负样本组更新策略。为了解决这一局限性,我们提出了逐步引导策略优化 (SGPO),这是一个简单的框架,利用逐步判断模型来增加组内响应的多样性。该模型可以直接训练,也可以利用现有的 LLM 进行训练,并且我们从理论上证明了它能够在简化的环境中加速 GRPO 的学习。实验结果表明,在九个基准测试(包括基线和蒸馏版本)上,对于不同规模(7B、14B 和 32B)的模型,SGPO 在离线和在线训练中均优于 GRPO。在训练的早期和中期阶段,由于全负样本组数量众多,性能提升尤为显著。此外,SGPO 与知识蒸馏方法的区别在于它不需要判断模型来生成正确答案。

Takeaways, Limitations

Takeaways:
通过解决全负样本组问题,有助于提高基于强化学习的 LLM 的推理能力。
利用逐步判断模型提高GRPO的学习效率。
显示出各种规模的 LLM 之间的一致性能改进。
与知识提炼方法不同,不需要答案生成模型。
Limitations:
所提出方法的有效性可能仅限于简化环境中的理论证明。
可能需要对逐步判断模型的设计和训练进行进一步研究。
可能需要进行具有更多样化和更复杂基准的额外实验。
👍