본 논문은 OpenAI o1 및 DeepSeek-R1과 같은 최근 모델들이 Chain-of-Thought(CoT) 추적을 확장하여 추론 집약적 과제에서 강력한 성능을 보여주지만, 장황한 추론이 비효율적이고 중복적인 출력으로 이어지는 과잉 사고(overthinking) 현상을 야기한다는 점을 지적합니다. 이를 해결하기 위해, 본 논문에서는 ShorterBetter라는 강화 학습 방법을 제안합니다. ShorterBetter는 모델이 수동 감독 없이 최적의 CoT 길이를 학습하도록 합니다. 여러 생성물 중 가장 짧은 정답의 길이를 Sample Optimal Length(SOL)로 정의하고, 이를 동적 보상 신호로 사용하여 효율적인 추론을 유도합니다. DeepSeek-Distill-Qwen-1.5B/7B 모델에 적용한 결과, 도메인 내외의 추론 과제에서 출력 길이를 50%-80% 줄이면서 정확도를 유지했습니다. 추론 추적 분석을 통해 ShorterBetter가 불필요한 반복, 과도한 자기 검증, 대안의 과도한 탐색을 줄임으로써 추론 추적의 구조를 개선함을 보여줍니다.