每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

Reinforce-Ada:用于强化式 LLM 训练的自适应采样框架

Created by
  • Haebom

作者

熊伟、叶晨露、廖宝浩、董汉泽、徐新兴、Christof Monz、边江、蒋楠、张桐

Reinforce-Ada:用于大型语言模型强化学习的自适应采样

大纲

本文介绍了 Reinforce-Ada 框架,该框架旨在解决强化学习 (RL) 应用中大规模语言模型 (LLM) 推理任务中固定、均匀的提示响应采样所导致的梯度估计不稳定问题。Reinforce-Ada 是一个用于在线强化学习后训练的自适应采样框架,它不断地将采样工作重新分配给具有高不确定性或高学习潜力的提示。它以在线、连续淘汰的方式将估计和采样连接起来,一旦收集到足够的信号,就会自动停止对给定提示的采样。它通过形成固定大小的组来增强奖励多样性,并利用在自适应采样阶段汇总的全局统计数据。

Takeaways, Limitations

Takeaways:
与 GRPO 相比,Reinforce-Ada 加快了收敛速度并提高了最终性能。
当使用平衡采样变量时,性能的提升尤为明显。
它强调了考虑到波动性的自适应数据管理的重要性。
Limitations:
摘要中没有明确提及具体的 Limitations。
👍