본 논문은 Chain-of-Thought (CoT) 추론을 사용하는 대규모 언어 모델(LLM)에서 CoT 길이와 정확도 간의 관계를 연구합니다. 기존의 믿음과 달리, CoT가 길다고 항상 성능이 좋은 것은 아니라는 것을 실제 관찰, 통제된 실험, 이론적 분석을 통해 보여줍니다. 실험 결과, CoT 길이와 정확도 간의 관계는 역U자형 곡선을 따르며, 최적의 CoT 길이는 작업 난이도가 높을수록 증가하고, 모델 성능이 높을수록 감소하는 것을 확인했습니다. 더 나아가, 강화 학습(RL) 과정에서도 모델이 정확도가 향상됨에 따라 더 짧은 CoT를 선호하는 경향(단순화 편향)을 발견하고, 이러한 현상을 설명하는 간단한 이론적 모델을 제시합니다. 마지막으로, 최적 길이의 CoT를 사용하여 학습하고 추론 시 길이 기반 필터링을 적용함으로써 실질적인 성능 향상을 보여줍니다.