본 논문은 대규모 언어 모델(LLM)의 과도한 사고 문제를 해결하기 위해 필수적인 중간 단계를 생성하는 '간결한 추론'을 제시한다. 기존의 수작업 기반 방식의 한계를 극복하기 위해, 본 연구는 성능 제약 조건을 기반으로 응답 길이를 최소화하는 '성능 인식 길이 업데이트(PALU)'라는 원칙적이고 실용적인 전략을 도입한다. PALU는 라그랑지안 최적화를 활용하여 제약 조건을 갖는 최적화 문제를 해결하고, 오프-정책 롤아웃을 통한 성능 추정, 라그랑지 승수 절단, 분위수 기반 길이 조정을 통해 복잡한 업데이트 규칙을 단순화한다. PALU는 DeepSeek-Distill-Qwen-1.5B 모델에 적용 시 출력 길이를 65% 감소시키면서 정확도를 15% 향상시켰으며, 다양한 벤치마크에서 기존 방법들을 능가했다. 또한, PALU는 도메인(논리, STEM, 수학)과 모델 규모(1.5B, 7B, 14B)에 걸쳐 적응 가능성을 보여 실용적이고 효과적인 간결한 추론 접근 방식임을 입증했다.