每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

重新发现熵正则化:自适应系数释放其在法学硕士强化学习中的潜力

Created by
  • Haebom

作者

张晓云、袁晓建、黄迪、王友、胡陈、阮景清、陈克江、胡星

大纲

本文探讨了可验证奖励强化学习 (RLVR) 训练过程中出现的策略熵衰减问题,旨在提升大规模语言模型 (LLM) 的推理性能。当策略变得过于确定时,就会发生策略熵衰减,从而阻碍探索并限制推理性能。本研究提出了一个名为自适应熵正则化 (AER) 的框架,该框架通过难度感知的系数分配、初始锚定的目标熵以及动态全局系数调整来动态平衡探索和利用。在多个数学推理基准测试上的实验结果表明,AER 优于现有方法,能够同时提升推理准确性和探索能力。

Takeaways, Limitations

Takeaways:
一种提高基于 RLVR 的 LLM(AER)推理能力的新方法。
我们重新审视了熵正则化的有效性,并证明了通过动态调整实现稳定性能改进的潜力。
通过难度意识、初始锚定目标熵和动态系数调整实现更有效的探索-利用平衡。
在各种数学推理基准测试中表现出比现有方法更优异的性能。
Limitations:
仅根据特定数学推理基准上的实验很难得出总体性能结论。
需要进一步分析 AER 的详细组成部分(如何衡量难度、设定目标熵等)。
需要进一步研究将其扩展到其他基于 LLM 的任务(例如自然语言处理)的可能性。
👍