この論文は、ルールベースの強化学習(RL)が大規模言語モデル(LLM)の推論能力を大幅に向上させますが、そのメカニズムは不明であることを指摘しています。小規模SFT(Supervised Fine-Tuning)がRLに大きな影響を与えるが効率が低いことを発見し、これを説明するために分析フレームワークを提案します。 SFTとRLの効率をサンプル効果を測定して比較分析し、SFT効率の向上の可能性を提示します。この分析に基づいて、RL学習ポリシーでサンプリングして小規模蒸留の効果を高める「再蒸留」技術を提案します。 3つのデータセットとQwen&Llamaモデルでは、再蒸留モデルがはるかに少ないサンプルと計算でRL性能に到達する驚くべき効率性を示し、K&Kデータセットでは再蒸留されたQwen-2.5-1.5Bモデルが1K SFTサンプルだけでDeepSeek-V3-0324を凌駕しました。さらに、再蒸留を使用してRLで複数の目標を効率的にバランスよく調整できることを示し、R1スタイルのRLのいくつかの興味深い現象を説明して、経験的成功のメカニズムを明らかにします。