Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

More Than One Teacher: Adaptive Multi-Guidance Policy Optimization for Diverse Exploration

Created by
  • Haebom

作者

Xiaoyang Yuan, Yujuan Ding, Yi Bin, Wenqi Shao, Jinyu Cai, Jingkuan Song, Yang Yang, Heng Tao Shen

概要

強化学習で言語モデルの推論能力を向上させるRLVR(Reinforcement Learning with Verifiable Rewards)の研究では、自己探索や単一オフライン教師に依存する既存方式の限界を克服したいと思います。本論文では、複数の熟練した教師モデルから学生モデルが正解を生成できない場合にのみ指針を受け取る「需要ベースの指針」アプローチを導入したAMPO(Adaptive Multi-Guidance Policy Optimization)フレームワークを提案します。 AMPOは、ナビゲーションを拡大し、自己発見の価値を維持し、学生モデルが理解する可能性の高い推論経路で学習するように導き、幅広いナビゲーションと効果的な活用のバランスをとります。

Takeaways、Limitations

AMPOは数学的推論課題で4.3%、外部分布課題で12.2%の性能向上を示し、強力なベースライン(GRPO)より優れた性能を示しました。
Pass@kのパフォーマンスを大幅に向上させ、さらに幅広いナビゲーションを可能にしました。
4つの同等サイズの教師モデルを使用したAMPOは、より強力な単一の教師モデル(DeepSeek-R1など)を使用したアプローチと同様の結果を達成しました。
提案する方法は、優れた推論能力と一般化能力のためのより効率的でスケーラブルなパスを提供します。
本論文のLimitationsは特に言及されていない。 (論文の要約に含まれない)
👍