每日 Arxiv

本页面整理了世界各地发表的人工智能相关论文。
本页面使用 Google Gemini 汇总而成,并以非盈利为基础运营。
论文版权归作者及相关机构所有,分享时请注明出处。

通过弹性推理实现可扩展的思维链

Created by
  • Haebom

作者

徐宇辉、董汉泽、王雷、Doyen Sahoo、李俊男、熊彩明

大纲

本文提出了一个名为“弹性推理”(Elastic Reasoning)的框架,该框架解决了现实世界部署的限制,例如令牌、延迟或计算资源有限等问题。大规模推理模型(LRM)通过生成扩展的计算任务(CoT)在复杂任务中取得了卓越的性能。弹性推理将推理过程明确划分为推理和求解两个阶段,并为每个阶段分配独立的预算。在测试过程中,它优先考虑求解部分的完整性,即使在严格的资源约束下也能显著提高可靠性。此外,为了训练一个适用于截断推理过程的鲁棒模型,我们引入了一种集成到 GRPO 中的轻量级预算约束展开策略。这使得模型能够在推理过程中断时进行自适应推理,并有效地推广到未知的预算约束,而无需额外训练。在数学(AIME、MATH500)和编程(LiveCodeBench、Codeforces)基准测试中的实验结果表明,即使在严格的预算约束下,弹性推理也能保持稳健的性能,并且训练成本显著低于基准方法。值得注意的是,即使在不受约束的环境中,它也能产生更简洁、更高效的推理。

Takeaways, Limitations

Takeaways:
我们提出了一个新颖的框架,可以显著提高资源受限环境中 LRM 的性能和可靠性。
将思考阶段和解决阶段分开可以实现高效的推理和资源管理。
轻量级、预算受限的推出策略使得训练模型能够适应各种预算限制,而无需额外的训练。
即使在不受约束的环境中也能生成更简洁、更高效的推理。
通过开放代码确保可重复性和可扩展性。
Limitations:
需要进一步研究所提出方法的泛化性能。
需要进一步的实验来研究弹性推理对各种类型问题的适用性和有效性。
需要进一步研究来优化具体的预算分配策略。
👍