每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

L1:通过强化学习控制推理模型的思考时间

Created by
  • Haebom

作者

普兰贾·阿加瓦尔、肖恩·维尔克

大纲

长度控制策略优化 (LCPO) 是一种简单的强化学习方法,可在尊重用户指定长度约束的同时优化准确率。我们使用 LCPO 训练了一个 L1 推理语言模型。L1 生成的输出满足提示中提供的长度约束。控制 L1 的长度可以在各种任务中实现计算成本和准确率之间的平衡,其性能优于现有的 S1 方法。此外,我们在使用 LCPO 训练的模型中发现了意想不到的短思路链能力。具体而言,我们使用 LCPO 开发了短推理模型 (SRM),其推理模式与全长推理模型相似,但产生的思路链长度与非推理模型相似。1.5B 的 L1 模型在相同推理长度下的表现显著优于 GPT-4o。

Takeaways, Limitations

Takeaways:
LCPO 可以控制推理模型的推理长度。
计算成本和准确性之间可以进行灵活的权衡。
SRM 开发使我们能够在较短的思路链内实现高性能。
L1模型优于传统的S1方法。
在相同的推理长度下,其性能优于 GPT-4o。
Limitations:
论文中没有提到具体的Limitations。
👍