본 논문은 확장된 사고 과정(CoT)을 생성하여 복잡한 작업에서 놀라운 성과를 달성한 대규모 추론 모델(LRM)의 제한된 토큰, 지연 시간 또는 컴퓨팅 리소스와 같은 실제 배포 환경의 제약을 해결하기 위해 제안된 탄력적 추론(Elastic Reasoning) 프레임워크를 제시합니다. 탄력적 추론은 사고와 해결책 두 단계로 추론 과정을 명시적으로 분리하고 각 단계에 독립적인 예산을 할당합니다. 테스트 시에는 해결책 부분의 완전성을 우선시하여 엄격한 리소스 제약 하에서도 신뢰성을 크게 향상시킵니다. 또한, 잘린 사고 과정에 강건한 모델을 훈련하기 위해 GRPO에 통합된 경량의 예산 제약 롤아웃 전략을 도입하여 모델이 사고 과정이 중단될 때 적응적으로 추론하고 추가 훈련 없이 보이지 않는 예산 제약에 효과적으로 일반화할 수 있도록 합니다. 수학(AIME, MATH500) 및 프로그래밍(LiveCodeBench, Codeforces) 벤치마크에 대한 실험 결과는 탄력적 추론이 엄격한 예산 제약 하에서도 강력한 성능을 발휘하고 기준 방법보다 훈련 비용이 훨씬 낮다는 것을 보여줍니다. 특히, 제약이 없는 환경에서도 더 간결하고 효율적인 추론을 생성합니다.