Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Group-in-Group Policy Optimization for LLM Agent Training

Created by
  • Haebom

作者

Lang Feng, Zhenghai Xue, Tingcong Liu, Bo An

概要

この論文では、グループベースの強化学習(RL)を使用して長期にわたる大規模言語モデル(LLM)エージェントトレーニングのスケーラビリティ問題を解決する新しいアルゴリズムであるGroup-in-Group Policy Optimization(GiGPO)を提案します。既存のグループベースのRLの利点(評論家なし、低いメモリ使用量、安定した収束)を維持しながら、エピソードレベルとステップレベルで相対的な利点を計算する階層構造により、細かい段階的なクレジット割り当てを実現します。エピソードレベルでは、完了した軌跡グループに基づいて巨視的相対的利点を計算し、ステップレベルでは、反復する環境状態を識別することによって段階的グループを逆に構成するアンカー状態グループ化メカニズムを導入して、微視的相対的利点を推定します. ALFWorldとWebShopのベンチマークでQwen2.5-1.5B-InstructとQwen2.5-7B-Instructを使用して評価したところ、従来のGRPO基準と比較してALFWorldでは12%以上、WebShopでは9%以上のパフォーマンス向上を達成しました。 GPUメモリのオーバーヘッドとLLMロールアウトは同じままで、追加の時間コストはほとんどまたはまったく発生しませんでした。

Takeaways、Limitations

Takeaways:
長期LLMエージェント訓練のスケーラビリティ問題を解決する新しい効率的なRLアルゴリズムGiGPO提示
既存のグループベースのRLの利点を維持しながら、細かい段階的なクレジット割り当てを可能にします。
ALFWorldとWebShopのベンチマークで、既存のアルゴリズムに対するパフォーマンスの向上を実験的に検証。
追加のメモリや時間を費やすことなくパフォーマンスを向上させる。
Limitations:
提案されたアルゴリズムの性能が特定のLLMとベンチマークに限定される可能性。
他のRLアルゴリズムとのより広範な比較分析が必要です。
アンカー状態グループ化メカニズムの一般性と様々な環境への適用性に関するさらなる研究の必要性
複雑な環境や長い時間の地平線でのパフォーマンス評価が必要です。
👍