제한된 감독 하에서 추론 능력을 갖춘 대규모 언어 모델(LLM)을 개발하기 위한 표본 효율적인 2단계 훈련 전략을 제안합니다. 1단계에서는 기사와 탐정 논리 퍼즐과 같은 장난감 도메인에서 긴 사고 과정(Long CoT)을 증류하여 일반적인 추론 기술을 습득하도록 모델을 "예열"합니다. 2단계에서는 제한된 대상 도메인 예시를 사용하여 예열된 모델에 검증 가능한 보상을 사용한 강화 학습(RLVR)을 적용합니다. 실험 결과, 이러한 2단계 접근 방식은 여러 가지 이점을 제공함을 보여줍니다. 예열 단계만으로도 다양한 작업(MATH, HumanEval+, MMLU-Pro 등)에서 성능이 향상되고, 예열된 모델은 동일한 작은 데이터셋으로 RLVR 훈련된 기본 모델보다 성능이 뛰어나며, RLVR 훈련 후에도 도메인 간 일반화 능력을 유지하고, RLVR 훈련 중 정확도와 표본 효율성을 모두 향상시킵니다. 이 연구는 데이터 부족 환경에서 강력한 추론 LLM을 구축하기 위한 예열의 가능성을 강조합니다.