每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

FlowRL:匹配 LLM 推理的奖励分布

Created by
  • Haebom

作者

朱学凯、程代轩、张定怀、李恒利、张凯彦、蒋车、孙友邦、华二模、左雨欣、吕兴泰、张启正、陈林、邵方浩、薄

大纲

本文提出了FlowRL,它通过流平衡而非奖励最大化来调整大规模语言模型 (LLM) 强化学习 (RL) 中的整体奖励分布。推理模型的最新进展采用了奖励最大化方法,例如PPO和GRPO,这些方法往往会过度优化主导奖励信号,而忽略频率较低但有效的推理路径,从而降低多样性。相比之下,本文使用可学习的分区函数将标量奖励转换为正则化的目标分布,然后最小化策略分布和目标分布之间的逆KL散度。该思想被实现为一种流平衡优化方法,以促进多样化的探索和可泛化的推理路径。在数学和代码推理任务上的实验表明,FlowRL在数学基准测试中平均比GRPO高出10.0%,比PPO高出5.1%,并且始终优于代码推理任务。这些结果强调了奖励分布匹配是LLM强化学习中高效探索和多样化推理的关键步骤。

Takeaways, Limitations

Takeaways:
在 LLM 强化学习中,我们展示的是匹配奖励分布的效用,而不是最大化奖励。
我们通过实验证明,FlowRL 在数学和代码推理任务上优于现有方法(PPO、GRPO)。
它有助于探索各种推理路径并生成可泛化的推理路径。
Limitations:
需要进一步验证所提出方法的泛化性能。
仅给出了针对特定任务(数学和代码推理)的实验结果,对其他任务的适用性有待进一步研究。
可能缺乏可学习分区函数的设计和优化的详细描述。
👍