Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Towards Revealing the Effectiveness of Small-Scale Fine-tuning in R1-style Reinforcement Learning

Created by
  • Haebom

作者

Yutong Chen, Jiandong Gao, Ji Wu

概要

この論文は、ルールベースの強化学習(RL)が大規模言語モデル(LLM)の推論能力を大幅に向上させますが、そのメカニズムは不明であることを指摘しています。小規模SFT(Supervised Fine-Tuning)がRLに大きな影響を与えるが効率が低いことを発見し、これを説明するために分析フレームワークを提案します。 SFTとRLの効率をサンプル効果を測定して比較分析し、SFT効率の向上の可能性を提示します。この分析に基づいて、RL学習ポリシーでサンプリングして小規模蒸留の効果を高める「再蒸留」技術を提案します。 3つのデータセットとQwen&Llamaモデルでは、再蒸留モデルがはるかに少ないサンプルと計算でRL性能に到達する驚くべき効率性を示し、K&Kデータセットでは再蒸留されたQwen-2.5-1.5Bモデルが1K SFTサンプルだけでDeepSeek-V3-0324を凌駕しました。さらに、再蒸留を使用してRLで複数の目標を効率的にバランスよく調整できることを示し、R1スタイルのRLのいくつかの興味深い現象を説明して、経験的成功のメカニズムを明らかにします。

Takeaways、Limitations

Takeaways:
小規模SFTの効率を改善する再蒸留技術の提案
少ないサンプルと計算でRLレベルの性能を達成
R1スタイルRLのメカニズムの理解を促進
RLにおける多目的バランスの可能性の提示
Limitations:
提案された分析的フレームワークおよび再蒸留技術の一般化の可能性に関するさらなる研究が必要である。
さまざまなLLMとデータセットの追加実験が必要です。
再蒸留技術の計算コストと実用的な制約に関するさらなる分析が必要
👍