本文提出了FlowRL,它通过流平衡而非奖励最大化来调整大规模语言模型 (LLM) 强化学习 (RL) 中的整体奖励分布。推理模型的最新进展采用了奖励最大化方法,例如PPO和GRPO,这些方法往往会过度优化主导奖励信号,而忽略频率较低但有效的推理路径,从而降低多样性。相比之下,本文使用可学习的分区函数将标量奖励转换为正则化的目标分布,然后最小化策略分布和目标分布之间的逆KL散度。该思想被实现为一种流平衡优化方法,以促进多样化的探索和可泛化的推理路径。在数学和代码推理任务上的实验表明,FlowRL在数学基准测试中平均比GRPO高出10.0%,比PPO高出5.1%,并且始终优于代码推理任务。这些结果强调了奖励分布匹配是LLM强化学习中高效探索和多样化推理的关键步骤。