Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Group Expectation Policy Optimization for Heterogeneous Reinforcement Learning

Created by
  • Haebom

作者

Han Zhang, Ruibin Zheng, Zexuan Yi, Zhuo Zhang, Hanyang Peng, Hui Wang, Zike Yuan, Cai Ke, Shiwei Chen, Jiacheng Yang, Yangning Li, Xiang Li, Jiangyue Yan, Yaoqi Liu, Liwen Jing, Jiayin Qi,

概要

本論文は、単一センターコンピューティングの限界を克服し、分散学習の重要性が高まるにつれて、異種分散環境での強化学習(RL)ベースの大規模言語モデル(LLM)事後学習の困難を解決するために、非同期RLアーキテクチャであるHeteroRLを提案します。 HeteroRLは、ロールアウトサンプリングとパラメータ学習を分離し、ネットワーク遅延が発生する地理的に分散したノードでも強力なパフォーマンスを提供します。具体的には、遅延によるKL発散が重要度サンプリングの失敗を引き起こす高い分散を引き起こす問題を特定し、それを解決するために、改善されたサンプリングメカニズムを通じて重要度重み分散を減らすGroup Expectation Policy Optimization(GEPO)アルゴリズムを提案します。 GEPOは理論的に指数関数的分散の減少を達成し、実験結果は1800秒の遅延下でも3%未満の性能低下しか見せず、GRPOよりも優れた安定性を維持することを示している。これは、異種ネットワークにおける分散RLの強力な可能性を実証する。

Takeaways、Limitations

Takeaways:
異種分散環境における強化学習ベースLLM事後学習の効率的な方法の提示
ネットワーク遅延に強い非同期RLアーキテクチャHeteroRL提案
重要度重み分散を低減するGEPOアルゴリズムによる安定した学習性能の確保
理論的分析と実験結果によるGEPOの有効性の検証
分散RLベースのLLM事後学習の実用化可能性の提示
Limitations:
実験環境の特殊性による一般化の可能性の更なる検証が必要
より複雑で多様なネットワーク環境でのパフォーマンス評価が必要
GEPOアルゴリズムの計算の複雑さと拡張性に関するさらなる研究が必要
さまざまなLLMアーキテクチャとRLアルゴリズムとの互換性レビューが必要
👍