每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

RLVR 中的深度-广度协同:通过自适应探索释放 LLM 推理优势

Created by
  • Haebom

作者

杨志成、郭志江、黄银雅、王永新、谢东春、王一伟、梁晓丹、唐静

探索可验证奖励强化学习(RLVR):拓展深度和广度

大纲

本文探索了两个尚未探索的维度:深度(模型能够采样的最大难度问题)和宽度(单次迭代中使用的实例数量),以提升可验证奖励强化学习 (RLVR) 中大规模语言模型的推理能力。通过分析 GRPO 算法的偏差,我们提出了难度自适应滚动采样 (DARS) 来解决深度问题;为了扩展宽度,我们增加了批量大小并执行全批量更新。DARS-B 同时扩展了深度和宽度,从而提升了 Pass@K 和 Pass@1 的性能。

Takeaways, Limitations

Takeaways:
通过DARS增加针对难题的积极推广次数,从而深入解决问题,提升Pass@K的绩效。
我们通过大批量训练扩大宽度,显著提高了 Pass@1 的性能。
DARS-B 同时扩展了深度和宽度,提高了 Pass@K 和 Pass@1 的性能。
我们证明深度和宽度是独立的维度,有助于提高 RLVR 的推理能力。
Limitations:
论文中没有具体说明Limitations。
👍