본 논문은 대규모 언어 모델(LLM)의 추론 능력 향상을 위한 지도 미세조정(SFT)과 강화 학습(RL)의 상호작용을 체계적으로 조사합니다. 특히, 8가지 추론 과제(Countdown, Sudoku, Arc 1D, Geometry, Color Cube Rotation, List Functions, Zebra Puzzles, Self Reference)를 통해 SFT와 RL의 효과, 특히 백트래킹의 역할을 분석합니다. 연구 결과, SFT에서의 짧은 사고 과정(CoT) 시퀀스는 RL 학습에 중간 정도의 기여를 하지만, 과제 난이도가 높아짐에 따라 기여도는 감소하는 것을 확인했습니다. 합성 데이터셋을 이용한 추가 실험을 통해, 백트래킹이 많은 긴 CoT 시퀀스가 더 나은 RL 학습을 유도하며, 더 어려운 문제일수록 SFT 단계에서 더 많은 백트래킹이 필요함을 밝혔습니다. 또한, RL 학습은 긴 CoT 시퀀스의 정확성보다 구조적 패턴에 더 큰 영향을 받는다는 것을 보였습니다. 결론적으로, 본 연구는 LLM의 추론 능력 확장을 위한 효과적인 훈련 전략 설계에 대한 실질적인 통찰력을 제공합니다.