本文提出了一个名为“弹性推理”(Elastic Reasoning)的框架,该框架解决了现实世界部署的限制,例如令牌、延迟或计算资源有限等问题。大规模推理模型(LRM)通过生成扩展的计算任务(CoT)在复杂任务中取得了卓越的性能。弹性推理将推理过程明确划分为推理和求解两个阶段,并为每个阶段分配独立的预算。在测试过程中,它优先考虑求解部分的完整性,即使在严格的资源约束下也能显著提高可靠性。此外,为了训练一个适用于截断推理过程的鲁棒模型,我们引入了一种集成到 GRPO 中的轻量级预算约束展开策略。这使得模型能够在推理过程中断时进行自适应推理,并有效地推广到未知的预算约束,而无需额外训练。在数学(AIME、MATH500)和编程(LiveCodeBench、Codeforces)基准测试中的实验结果表明,即使在严格的预算约束下,弹性推理也能保持稳健的性能,并且训练成本显著低于基准方法。值得注意的是,即使在不受约束的环境中,它也能产生更简洁、更高效的推理。