本文提出了一种利用强化学习 (RL) 提升大规模语言模型 (LLM) 推理能力的方法。现有的组相对策略优化 (GRPO) 方法存在一个局限性,即无法针对全负样本组更新策略。为了解决这一局限性,我们提出了逐步引导策略优化 (SGPO),这是一个简单的框架,利用逐步判断模型来增加组内响应的多样性。该模型可以直接训练,也可以利用现有的 LLM 进行训练,并且我们从理论上证明了它能够在简化的环境中加速 GRPO 的学习。实验结果表明,在九个基准测试(包括基线和蒸馏版本)上,对于不同规模(7B、14B 和 32B)的模型,SGPO 在离线和在线训练中均优于 GRPO。在训练的早期和中期阶段,由于全负样本组数量众多,性能提升尤为显著。此外,SGPO 与知识蒸馏方法的区别在于它不需要判断模型来生成正确答案。