본 논문은 대규모 언어 모델(LLM)의 추론 길이를 효율적으로 제어하는 새로운 방법인 '예산 지침(Budget Guidance)'을 제안합니다. 기존의 LLM들은 성능 향상을 위해 과도한 추론을 수행하여 비용이 많이 들지만, 본 논문에서 제안하는 방법은 LLM의 미세 조정 없이도 가벼운 예측기를 사용하여 추론 과정을 목표 예산에 맞춰 조절합니다. 특히, 남은 추론 길이에 대한 감마 분포를 모델링하여 토큰 생성 시 소프트하게 생성 과정을 안내함으로써, 지정된 예산 내에서 전체 추론 과정을 유지합니다. 실험 결과, 수학 문제 벤치마크에서 기존 방법보다 상당한 토큰 효율 향상과 정확도 향상을 보였으며, 특히 제한된 예산 하에서 MATH-500 벤치마크에서 최대 26%의 정확도 향상을 달성했습니다. 또한, 질문 난이도 추정과 같은 부수적인 기능도 나타냈습니다. 소스 코드는 공개되어 있습니다.