強化学習(RL)は、LLMの長期的で稀な報酬を持つエージェントタスクで戦略的ツールを使用する能力を向上させるのに支配的なパラダイムですが、ナビゲーション - 活用の根本的な問題に直面しています。本論文では、政策エントロピーによる探索を刺激する既存の研究の問題点を指摘し、エージェント自身の経験に基づいて、エントロピー崩壊や発散なしに徐々に探索・活用バランスを目指します。 SPEARは、エージェントLLMを訓練するためのカリキュラムベースの自己模倣学習(SIL)アプローチを提案します。 SPEARはSILフレームワークを拡張し、再現バッファに独自に生成された有望な軌跡を格納してオフポリシー更新を行い、各段階でバランスのとれたエントロピー範囲を維持しながらポリシーを徐々に発展させます。 SPEARは、固有の報酬を活用して技術レベルのナビゲーションを促進し、SILを介してアクションレベルのナビゲーションを容易にするカリキュラムを統合します。トレーニング序盤には、補助ツール呼び出し補償がツール使用技術の蓄積に重要な役割を果たし、トレーニングが進むにつれて自己模倣を強化して既存の成功パターンを活用し、軌跡レベルのエントロピー制御のために過信を抑制する正規化を導入します。