每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

RLVR 中的深度-广度协同:通过自适应探索释放 LLM 推理优势

Created by
  • Haebom

作者

杨志成、郭志江、黄银雅、王永新、谢东春、王一伟、梁晓丹、唐静

可验证奖励的强化学习:深度与广度

大纲

本文重点探讨了可验证奖励强化学习 (RLVR) 中两个尚未探索的方面:深度(难题采样)和广度(单次迭代中使用的实例数量),以克服 RLVR 的局限性。我们分析了 GRPO 算法的偏差,并提出了难度自适应滚动采样 (DARS) 来解决忽略深度的问题。此外,我们扩展了训练数据的广度,从而提升了性能。DARS-B 结合了 DARS 和广度,在 Pass@K 和 Pass@1 方面均实现了同步提升。

Takeaways,Limitations

Takeaways:
通过 DARS 改进针对难题的采样,从而提高性能。
通过扩大训练数据的广度来提高推理能力。
DARS和Breadth是两个独立的因素,对提高RLVR的推理能力很重要。
通过 DARS-B 对 Pass@K 和 Pass@1 进行改进。
Limitations:
基于GRPO算法的偏差分析。
DARS 和 Breadth 扩展的具体实施细节可能有限。
这可能是针对特定算法和问题的结果,需要进一步研究来确定其普遍性。
👍