본 논문은 사고연쇄(Chain-of-thought, CoT) 추론을 사용하는 대규모 언어 모델(LLM)이 복잡한 과제를 해결하기 위해 중간 토큰을 통해 추가적인 계산을 활용하지만, 일반적인 추론 과정에는 많은 중복 토큰이 포함되어 불필요한 추론 비용이 발생한다는 점을 지적합니다. 연구진은 현재 LLM의 출력 분포를 조사하여 기본 동작에 비해 더 간결하게 추론할 수 있는 잠재적인 능력을 발견했습니다. 이러한 능력을 유도하기 위해, 과제별 설정에서 최적 N 샘플링 및 몇 번의 샷 조건화를 통해 얻은 자체 생성된 간결한 추론 경로를 활용하는 간단한 미세 조정 방법을 제안합니다. 제안된 방법은 GSM8K 및 MATH에서 5가지 모델 계열에 걸쳐 평균적으로 출력 토큰을 30% 줄이면서 평균 정확도를 유지합니다. LLM의 기본적인 확률성과 문맥 내 학습 기능을 활용하여 광범위한 모델(사후 훈련이 광범위하게 이루어진 모델 포함)에서 간결한 추론을 강력하게 유도하는 자기 훈련 방식을 제시합니다.