本論文は、既存の指導学習方式である行動複製(Behavior Cloning, BC)を強化学習(Reinforcement Learning, RL)の観点から再解析し、希少補償環境におけるRL目的関数の下限を最大化するものと説明します。既存の地図微調整(Supervised Fine-Tuning、SFT)がこれらの下限を最大化する方法で理解できることを明らかにし、SFTを重要度重みを与える方法(importance weighted supervised fine-tuning、iw-SFT)に修正してRL目的関数に対するより正確な近似を提供することを提示する。 iw-SFTはSFTよりもパフォーマンスを向上させることができ、品質スコアのあるデータを使用して一般化できます。実験の結果、iw-SFTは大規模な言語モデルおよび連続制御作業で高度なRLアルゴリズムと競争力のあるパフォーマンスを示し、AIME 2024データセットで66.7%のパフォーマンスを達成しました。