Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AMFT: Aligning LLM Reasoners by Meta-Learning the Optimal Imitation-Exploration Balance

Created by
  • Haebom

作者

Lixuan He, Jie Feng, Yong Li

概要

本論文では、大規模言語モデル(LLM)の推論能力向上のための既存の2段階パイプライン(地図学習微調整(SFT)と強化学習(RL))の限界を克服するために、SFTとRLを相互補完的な補償信号として見る新たな視点を提示します。既存の方法の欠点である恐ろしい忘却と模倣と探索との間の最適化されていないトレードオフを解決するために、暗黙の補償概念を導入して、SFTの経路レベル補償とRLの結果ベースの補償との最適なバランスを学習する単一ステップアルゴリズムである適応メタ微調整(AMFT)を提案します。 AMFTの中心は、SFT-RLバランスを学習可能なパラメータとして扱い、長期的な作業パフォーマンスを最大化するように動的に最適化するメタ勾配適応重みコントローラです。政策エントロピーによる安定性の確保により、効果的な学習プロセスを自律的に発見します。数学的推論、抽象視覚的推論(General Points)、視覚言語探索(V-IRL)など、さまざまなベンチマークで最先端の性能を達成し、分布外(OOD)作業でも優れた一般化性能を示します。エイブレーション研究と学習動的分析により、メタ学習コントローラがAMFTの安定性、サンプル効率、およびパフォーマンスに重要な役割を果たしていることを確認します。

Takeaways、Limitations

Takeaways:
従来のSFTとRLの2段階パイプライン方式の制限を克服する新しい単一段階学習アルゴリズムAMFT提示
暗黙の補償概念を導入することにより、SFTとRLの補償信号を効果的に統合
メタスロープ適応ウェイトコントローラを介してSFT-RLバランスを動的に最適化することで、長期的な作業性能を向上させます。
さまざまなベンチマークで最先端のパフォーマンスを達成し、優れた一般化性能を確認します。
オープンソースコード開示による研究の再現性と拡張性の提供
Limitations:
AMFTアルゴリズムの複雑さによる計算コストの増加の可能性
特定のベンチマークの最適化の可能性、他の種類のタスクの一般化パフォーマンスの追加検証が必要です。
メタ勾配適応重みコントローラの動作のより深い分析と解釈が必要です。
👍