本論文では、大規模言語モデル(LLM)の推論能力向上のための既存の2段階パイプライン(地図学習微調整(SFT)と強化学習(RL))の限界を克服するために、SFTとRLを相互補完的な補償信号として見る新たな視点を提示します。既存の方法の欠点である恐ろしい忘却と模倣と探索との間の最適化されていないトレードオフを解決するために、暗黙の補償概念を導入して、SFTの経路レベル補償とRLの結果ベースの補償との最適なバランスを学習する単一ステップアルゴリズムである適応メタ微調整(AMFT)を提案します。 AMFTの中心は、SFT-RLバランスを学習可能なパラメータとして扱い、長期的な作業パフォーマンスを最大化するように動的に最適化するメタ勾配適応重みコントローラです。政策エントロピーによる安定性の確保により、効果的な学習プロセスを自律的に発見します。数学的推論、抽象視覚的推論(General Points)、視覚言語探索(V-IRL)など、さまざまなベンチマークで最先端の性能を達成し、分布外(OOD)作業でも優れた一般化性能を示します。エイブレーション研究と学習動的分析により、メタ学習コントローラがAMFTの安定性、サンプル効率、およびパフォーマンスに重要な役割を果たしていることを確認します。