Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Learn the Ropes, Then Trust the Wins: Self-imitation with Progressive Exploration for Agentic Reinforcement Learning

Created by
  • Haebom

作者

ユレイキン、シアオユタン、ツェンバオヘ、ガンリ、ハオジアリン、ゾンギリ、ジハンシュ、ユチェンシ、シキカイ、レンチルイ、シャオフェイカイ、ユジエンカイ、シュアンチャン、シェンイ、ケリ、シンサン

SPEAR: Curriculum-based Self-Imitation Learning for Agentic LLMs

概要

強化学習(RL)は、LLMの長期的で稀な報酬を持つエージェントタスクで戦略的ツールを使用する能力を向上させるのに支配的なパラダイムですが、ナビゲーション - 活用の根本的な問題に直面しています。本論文では、政策エントロピーによる探索を刺激する既存の研究の問題点を指摘し、エージェント自身の経験に基づいて、エントロピー崩壊や発散なしに徐々に探索・活用バランスを目指します。 SPEARは、エージェントLLMを訓練するためのカリキュラムベースの自己模倣学習(SIL)アプローチを提案します。 SPEARはSILフレームワークを拡張し、再現バッファに独自に生成された有望な軌跡を格納してオフポリシー更新を行い、各段階でバランスのとれたエントロピー範囲を維持しながらポリシーを徐々に発展させます。 SPEARは、固有の報酬を活用して技術レベルのナビゲーションを促進し、SILを介してアクションレベルのナビゲーションを容易にするカリキュラムを統合します。トレーニング序盤には、補助ツール呼び出し補償がツール使用技術の蓄積に重要な役割を果たし、トレーニングが進むにつれて自己模倣を強化して既存の成功パターンを活用し、軌跡レベルのエントロピー制御のために過信を抑制する正規化を導入します。

Takeaways、Limitations

Takeaways:
RLベースのLLMトレーニングのナビゲーション - 活用ジレンマ解決のための新しい方法論を提示します。
カリキュラムベースの自己模倣学習(SIL)方式により、ナビゲーションと活用のバランスを整えます。
ツールの使用技術を習得するための段階的な学習アプローチを提示します。
訓練安定性のための様々な正規化技術の導入。
Limitations:
具体的な実験結果と性能比較に関する情報不足(論文の要約で確認できない)
他のRLベースの方法論との比較分析情報の欠如
特定の環境(長期的かつ稀な補償環境)でのパフォーマンスに関する限定的な情報。
👍