본 논문은 강화 학습(RL)만으로는 사고 능력을 갖춘 대규모 언어 모델(LLM)을 만들 수 없다는 기존 연구 결과를 바탕으로, 사고 능력이 부족한 모델을 학습시키는 새로운 방법인 ThinkTuning을 제안합니다. ThinkTuning은 교사 모델의 지도를 받는 학생 모델의 rollout을 강화하는 GRPO 기반의 상호작용적 학습 접근 방식입니다. 교사 모델은 문제를 제시하고 학생 모델의 답변에 대한 수정 피드백을 제공하며, 이를 통해 학생 모델의 추론 능력을 향상시킵니다. 실험 결과, ThinkTuning은 다양한 벤치마크에서 zero-shot baseline에 비해 평균 3.85% 향상을 보였으며, MATH-500, AIME, GPQA-Diamond에서는 각각 2.08%, 2.23%, 3.99% 향상을 보였습니다. 소스 코드는 깃허브에 공개되어 있습니다.