OpenAI o1 및 DeepSeek-R1과 같은 최신 모델은 확장된 CoT(Chain-of-Thought) 추론을 생성하여 추론 집약적인 작업에서 강력한 성능을 보였다. 하지만, 더 긴 추론은 복잡한 문제에 대한 해결책 탐색에 도움을 주지만, 비효율적이고 중복된 출력을 초래한다. 본 논문에서는 ShorterBetter를 제안하는데, 이는 추론 모델이 수동 감독 없이 자체적인 최적 CoT 길이를 학습할 수 있게 해주는 간단하면서도 효과적인 강화 학습 방법이다. Sample Optimal Length (SOL)를 여러 생성물 중 가장 짧고 정확한 응답의 길이로 정의하고, 이를 효율적인 추론을 위한 동적 보상 신호로 사용한다. DeepSeek-Distill-Qwen-1.5B/7B를 기반 모델로 적용한 결과, ShorterBetter는 정확도를 유지하면서 도메인 내 및 도메인 밖 추론 작업에서 출력 길이를 50%-80% 감소시켰다. 추론 분석 결과 ShorterBetter는 불필요한 반복, 과도한 자체 검증 및 과도한 대안 탐색을 줄여 추론 추론의 구조를 개선했다.