제한된 감독 하에서 추론 능력을 갖춘 대규모 언어 모델(LLM)을 개발하기 위한 효율적인 두 단계 교육 전략을 제안합니다. 첫 번째 단계에서는 Knights & Knaves(K&K) 논리 퍼즐과 같은 장난감 도메인에서 장황한 사고 과정(Long CoT)을 증류하여 일반적인 추론 기술을 습득하도록 모델을 "예열"합니다. 두 번째 단계에서는 제한된 대상 도메인 예시를 사용하여 예열된 모델에 강화 학습 및 검증 가능한 보상(RLVR)을 적용합니다. 실험 결과, 이 두 단계 접근 방식은 MATH, HumanEval+, MMLU-Pro를 포함한 다양한 작업에서 성능 향상을 가져오는 등 여러 가지 이점을 제공함을 보여줍니다. 특히, 소규모 데이터셋(100개 이하 예시)으로 RLVR 훈련을 할 때 예열된 모델이 기본 모델보다 일관되게 성능이 우수하며, 특정 도메인에 대한 훈련 후에도 교차 도메인 일반화 능력을 유지하고, RLVR 훈련 중 정확도와 샘플 효율성을 모두 향상시킵니다.