每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

当在线策略强化学习遇见离线策略专家:通过动态加权协调监督微调和强化学习

Created by
  • Haebom

作者

张文浩、谢跃翔、孙雨昌、陈彦希、王国银、李亚良、丁柏林、周静仁

大纲

为了解决现有监督微调 (SFT) 与强化学习 (RL) 集成方法中固有的挑战(响应模式破坏和过拟合),我们从离策略 (off-policy) 和在策略 (on-policy) 两个角度研究 SFT 与 RL 的集成。我们提出了一个名为 CHORD 的框架,该框架将 SFT 重新定义为在策略 RL 流程中一个动态加权的子目标,而不是一个单独的步骤。CHORD 分析了离策略专家数据的影响,并使用全局系数和基于 token 的加权函数实现了双重控制机制。这有利于在策略探索,减轻了离策略数据的干扰,并在数学推理和工具使用任务上优于现有方法。

Takeaways, Limitations

Takeaways:
SFT 和 RL 集成的新视角:通过离线策略/在线策略镜头进行分析。
提出的 CHORD 框架:利用 SFT 作为 RL 过程中的动态权重。
引入双重控制机制:通过全局系数和标记加权函数进行复杂的学习。
与数学推理和工具使用任务中的现有方法相比,表现出更优异的性能。
实现代码公开:为进一步研究提供基础。
Limitations:
需要有关具体实验结果和性能比较的更多信息。
需要验证各种任务的泛化性能。
缺乏有关超参数设置和框架优化的细节。
👍