强化学习 (RL) 在推进大规模预训练语言模型 (LLM) 的发展中发挥了至关重要的作用,GPT-o 系列、DeepSeek-R1、Kimi-K1.5、Grok 4 和 GLM-4.5 等模型都通过 RL 训练提升了推理和编码能力。然而,RL 训练仍然需要耗费大量的计算资源,rollout 生成占总运行时间的 90% 以上。rollout 响应长度的长尾分布限制了效率,少数长响应会延迟整个批次,从而导致 GPU 空闲。为了解决这个问题,作者提出了强化学习中的主动部分 rollout (APRIL) 算法,以缓解长尾效率低下的问题。APRIL 在 rollout 阶段会过度预置 rollout 请求,在达到目标响应数量时终止,并回收未完成的响应以供将来使用。实验结果表明,与常用的强化学习算法(GRPO、DAPO 和 GSPO)相比,APRIL 可将 rollout 吞吐量平均提升 22.5%(最高可达 44%),加速收敛,并在各任务中实现平均 2.1%(最高可达 8%)的最终准确率提升。APRIL 与框架和硬件无关,已集成到 Slime 强化学习框架中,并且可部署在 NVIDIA 和 AMD GPU 上。