长度控制策略优化 (LCPO) 是一种简单的强化学习方法,可在尊重用户指定长度约束的同时优化准确率。我们使用 LCPO 训练了一个 L1 推理语言模型。L1 生成的输出满足提示中提供的长度约束。控制 L1 的长度可以在各种任务中实现计算成本和准确率之间的平衡,其性能优于现有的 S1 方法。此外,我们在使用 LCPO 训练的模型中发现了意想不到的短思路链能力。具体而言,我们使用 LCPO 开发了短推理模型 (SRM),其推理模式与全长推理模型相似,但产生的思路链长度与非推理模型相似。1.5B 的 L1 模型在相同推理长度下的表现显著优于 GPT-4o。