每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

利用可扩展的中期训练强化学习,学习将推理作为动作抽象

Created by
  • Haebom

作者

张深奥、余东寒、冯一浩、金博文、王兆然、约翰·皮布尔斯、王子瑞

大纲

大规模语言模型在强化学习 (RL) 中展现出优势,但需要中间训练阶段才能充分发挥其潜力。本文从理论上分析了中间训练对后续训练的影响,并强调了动作抽象空间对于高效动作选择的重要性。基于此,我们提出了“推理即动作抽象 (RA3)”算法,该算法利用序列变异下界来发现时间相干的潜在结构,并基于引导数据对其进行微调。实验证明,RA3 能够提升代码生成任务的性能。

Takeaways, Limitations

Takeaways:
我们从理论上证明,中间训练步骤对于提高基于 RL 的大规模语言模型的性能至关重要。
我们认为在动作抽象空间中进行训练是有效的。
通过RA3算法在代码生成任务中实现了比现有方法的性能提升。
Limitations:
RA3算法的理论分析和有效性仅限于代码生成任务,需要推广到其他领域。
RA3 算法的实现细节和超参数的更多细节可能缺乏。
需要进一步研究动作抽象的有效学习和优化。
👍