본 논문은 대규모 언어 모델(LLM)에서 과도한 사고 문제를 해결하기 위해 필수적인 중간 단계만 생성하는 간결한 추론 방식을 제안한다. '성능 인식 길이 업데이트(PALU)'라는 원리적이고 실용적인 전략을 도입하여 간결함과 성능 간의 균형을 맞춘다. PALU는 성능 제약 조건 하에서 응답 길이를 최소화하는 최적화 문제로 간결한 추론을 공식화하고, 라그랑주 최적화를 통해 풀 수 없는 문제를 해결한다. PALU는 오프 정책 롤아웃으로 성능을 추정하고, 라그랑주 승수를 두 극단으로 절단하며, 기울기 기반 업데이트를 분위수 기반 길이 조정으로 대체하여 복잡한 업데이트 규칙을 단순화한다. PALU는 5개의 벤치마크 평균 결과 DeepSeek-Distill-Qwen-1.5B 모델에 적용했을 때, 출력 길이를 65% 줄이면서 정확도를 15% 향상시켰다. 또한 논문은 PALU가 도메인(논리, STEM, 수학) 및 모델 규모(1.5B, 7B, 14B)에 걸쳐 적응 가능함을 입증했다.