本研究旨在利用强化学习 (RL) 的进展来提升大规模语言模型 (LLM) 的推理性能。组相对策略优化 (GRPO) 是近端策略优化 (PPO) 的轻量级变体,其效率卓越,但其在复杂推理任务上的有效性受限于有限的探索和训练的不稳定性。为了解决这些问题,我们提出了探索-过滤-重放 (EFRame) 框架,该框架结合了通过额外 rollout 进行更深入、更有针对性的探索、通过移除低质量样本实现梯度稳定和训练加速,以及通过经验重放来放大稀缺但信息丰富的轨迹。EFRame 建立了一个在探索、效率和稳定性之间取得平衡的原则性训练周期,并在各种推理基准测试中展现出持续的性能提升,其中相比 GRPO 提升了 37.9%。此外,EFRame 支持细粒度样本分类和精确的熵控制,凸显了其作为推进 LLM 深度推理的强大解决方案的潜力。