본 논문은 대규모 언어 모델의 지도 학습 미세 조정(SFT)과 제어 정책의 모방 학습에 주로 사용되는 정제된(또는 필터링된) 데이터에 대한 행동 복제(BC)를 다룹니다. 기존 연구를 바탕으로 SFT를 희소 보상 설정에서 강화 학습(RL) 목표의 하한을 최대화하는 것으로 이해할 수 있음을 명확히 합니다. 이 관점에서 SFT에 약간의 수정을 가하여 RL 학습에 더 가깝게 동작하는 중요도 가중 SFT(iw-SFT)를 제안합니다. iw-SFT는 RL 목표에 대한 더욱 엄격한 경계를 최적화하고 정제된 데이터에 대한 SFT보다 성능을 향상시킬 수 있습니다. iw-SFT는 구현이 용이하며 품질 점수가 매겨진 데이터를 사용한 학습으로 일반화될 수 있습니다. 결과적으로 제안된 SFT 변형들은 대규모 언어 모델과 연속 제어 작업에서의 정책 학습에 있어 더욱 고급 RL 알고리즘과 경쟁력을 갖습니다. 예를 들어 AIME 2024 데이터셋에서 66.7%의 성능을 달성했습니다.