每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

四月:强化学习中的主动部分推广,以驯服长尾生成

Created by
  • Haebom

作者

周玉珍、李家军、苏玉生、Gwtham Ramesh、朱紫琳、龙翔、赵晨阳、潘锦、于晓东、王泽、杜康瑞、吴嘉莲、孙希萌、刘江、余巧琳、陈浩、刘子成、Emad Barsoum

大纲

强化学习 (RL) 在推进大规模预训练语言模型 (LLM) 的发展中发挥了至关重要的作用,GPT-o 系列、DeepSeek-R1、Kimi-K1.5、Grok 4 和 GLM-4.5 等模型都通过 RL 训练提升了推理和编码能力。然而,RL 训练仍然需要耗费大量的计算资源,rollout 生成占总运行时间的 90% 以上。rollout 响应长度的长尾分布限制了效率,少数长响应会延迟整个批次,从而导致 GPU 空闲。为了解决这个问题,作者提出了强化学习中的主动部分 rollout (APRIL) 算法,以缓解长尾效率低下的问题。APRIL 在 rollout 阶段会过度预置 rollout 请求,在达到目标响应数量时终止,并回收未完成的响应以供将来使用。实验结果表明,与常用的强化学习算法(GRPO、DAPO 和 GSPO)相比,APRIL 可将 rollout 吞吐量平均提升 22.5%(最高可达 44%),加速收敛,并在各任务中实现平均 2.1%(最高可达 8%)的最终准确率提升。APRIL 与框架和硬件无关,已集成到 Slime 强化学习框架中,并且可部署在 NVIDIA 和 AMD GPU 上。

Takeaways,Limitations

Takeaways:
APRIL 提出了一种提高 RL 训练效率的新技术。
它显示出改进的推出吞吐量和最终准确性,以及改进的收敛速度。
适用于各种RL算法和硬件环境。
Limitations:
论文中没有具体提及Limitations。
实验结果可能仅限于特定的 RL 算法和任务。
APRIL 的有效性可能因模型大小和任务难度而异。
👍