본 논문은 기존의 지도 학습 방식인 행동 복제(Behavior Cloning, BC)를 강화 학습(Reinforcement Learning, RL) 관점에서 재해석하여, 희소 보상 환경에서 RL 목적 함수의 하한을 최대화하는 것으로 설명합니다. 기존의 지도 미세 조정(Supervised Fine-Tuning, SFT)이 이러한 하한을 최대화하는 방식으로 이해될 수 있음을 밝히고, SFT를 중요도 가중치를 부여하는 방식(importance weighted supervised fine-tuning, iw-SFT)으로 수정하여 RL 목적 함수에 대한 더욱 정확한 근사를 제공함을 제시합니다. iw-SFT는 SFT보다 성능이 향상될 수 있으며, 품질 점수가 있는 데이터를 사용하여 일반화할 수 있습니다. 실험 결과, iw-SFT는 대규모 언어 모델 및 연속 제어 작업에서 고급 RL 알고리즘과 경쟁력 있는 성능을 보였으며, AIME 2024 데이터셋에서 66.7%의 성능을 달성했습니다.