每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

RLVR 的优化动力学:梯度间隙和步长阈值

Created by
  • Haebom

作者

Joe Suk,段亚琪

大纲

本文为可验证奖励强化学习 (RLVR) 的工作原理奠定了理论基础,该模型使用简单的二元反馈对大规模语言模型进行后训练。具体而言,我们分析了梯度间隙的概念,该概念形式化地定义了响应空间中从低奖励区域到高奖励区域的改进方向。我们证明了 RLVR 的收敛性关键取决于更新方向沿梯度间隙的对齐,并且存在一个取决于梯度间隙大小的学习率阈值。此外,我们预测了应如何根据响应长度和成功率调整临界学习率,并解释了长度正则化等实用经验方法的稳定性。这些预测已通过老虎机模拟得到验证。

Takeaways, Limitations

Takeaways:
提供对 RLVR 成功的理论理解。
通过梯度间隙分析学习过程并展示收敛条件
确定学习率、响应长度和成功率之间的关系
解释长度规范化等经验方法的有效性
Limitations:
基于理论分析,可能不是对真实复杂 RLVR 系统的完整描述。
尽管我们通过强盗模拟验证了我们的预测,但与实际的大规模语言模型训练环境可能存在差异。
它不包括对 RLVR 其他方面的深入分析(例如,奖励函数设计、探索策略等)。
👍