OpenAI o1 및 DeepSeek-R1과 같은 최근 모델은 확장된 사고연쇄(CoT) 추적을 생성하여 추론 집약적 작업에서 강력한 성능을 보여주었습니다. 더 긴 추론은 복잡한 문제에 대한 해결 경로를 철저히 탐색하는 데 도움이 되지만, 비효율적이고 중복된 출력으로 이어지는 과도한 사고라는 현상을 초래하기도 합니다. 본 논문에서는 ShorterBetter라는 간단하면서도 효과적인 강화 학습 방법을 제안합니다. 이 방법은 모델이 수동 감독 없이 자체 최적 CoT 길이를 학습할 수 있도록 합니다. 여러 생성물 중 가장 짧은 정답의 길이를 샘플 최적 길이(SOL)로 정의하여 모델이 효율적인 추론을 향하도록 안내하는 동적 보상 신호로 사용합니다. 기본 모델로 DeepSeek-Distill-Qwen-1.5B/7B에 적용된 ShorterBetter는 도메인 내 및 도메인 외 추론 작업 모두에서 출력 길이를 50%-80% 줄이면서 정확도를 유지합니다. 추론 추적 분석 결과, ShorterBetter는 불필요한 반복, 과도한 자체 검증 및 대안의 과도한 탐색을 줄임으로써 추론 추적의 구조를 개선합니다.