每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

EFRame:通过探索-过滤-重放强化学习框架进行更深层次的推理

Created by
  • Haebom

作者

王晨、魏来、张彦志、邵晨阳、丹泽东、黄蔚然、张玉志、王悦

大纲

本研究旨在利用强化学习 (RL) 的进展来提升大规模语言模型 (LLM) 的推理性能。组相对策略优化 (GRPO) 是近端策略优化 (PPO) 的轻量级变体,其效率卓越,但其在复杂推理任务上的有效性受限于有限的探索和训练的不稳定性。为了解决这些问题,我们提出了探索-过滤-重放 (EFRame) 框架,该框架结合了通过额外 rollout 进行更深入、更有针对性的探索、通过移除低质量样本实现梯度稳定和训练加速,以及通过经验重放来放大稀缺但信息丰富的轨迹。EFRame 建立了一个在探索、效率和稳定性之间取得平衡的原则性训练周期,并在各种推理基准测试中展现出持续的性能提升,其中相比 GRPO 提升了 37.9%。此外,EFRame 支持细粒度样本分类和精确的熵控制,凸显了其作为推进 LLM 深度推理的强大解决方案的潜力。

Takeaways, Limitations

Takeaways:
EFRame 通过解决 GRPO 的探索、效率和稳定性问题提高了 LLM 的推理能力。
在 Geometry3K 基准测试中,性能比 GRPO 提高了 37.9%。
支持细粒度样本分类和精准熵控制。
为推进法学硕士的深度推理提供强有力的解决方案。
Limitations:
摘要中未指定具体的 Limitations(例如,与其他 RL 算法的比较、特定任务上的性能下降等)
👍