본 논문은 추론 대규모 언어 모델(RLLM)의 추론 능력 향상을 위한 컨텍스트 학습(ICL) 방법인 CoT 프롬프팅의 필요성을 분석합니다. 1.5B~32B 파라미터의 다양한 RLLM을 대상으로 수학적 추론 과제에서 제로샷 및 퓨샷 CoT의 영향을 종합적으로 분석한 결과, CoT 프롬프팅이 대부분의 경우 RLLM의 성능을 향상시킨다는 것을 발견했습니다. 특히 대규모 모델은 복잡한 문제에서, 소규모 모델은 단순한 문제에서 CoT 프롬프팅의 효과가 더 크게 나타났습니다. CoT 프롬프팅은 사고 토큰 수와 추론 단계의 분포를 효과적으로 제어하여 과도한 반성을 줄이며, 어텐션 로짓 분석을 통해 RLLM의 반성 관련 단어 과적합 문제를 완화하는 것을 확인했습니다. 또한, RLLM에서는 퓨샷 CoT보다 원샷 CoT가 더 나은 성능을 보임을 확인했습니다.