Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Group Expectation Policy Optimization for Heterogeneous Reinforcement Learning

Created by
  • Haebom

作者

Han Zhang, Ruibin Zheng, Zexuan Yi, Zhuo Zhang, Hanyang Peng, Hui Wang, Zike Yuan, Cai Ke, Shiwei Chen, Jiacheng Yang, Yangning Li, Xiang Li, Jiangyue Yan, Yaoqi Liu, Liwen Jing, Jiayin Qi,

概要

この論文は、シングルセンターコンピューティングの限界を克服するための分散学習の重要性を強調し、特に大規模言語モデル(LLM)の強化学習(RL)後の学習に焦点を当てています。従来のRLのサンプリング - 学習循環プロセスの密接な組み合わせにより、異機種分散環境で困難になる問題を解決するために、ロールアウトサンプリングとパラメータ学習を分離する非同期RLアーキテクチャであるHeteroRLが提案されています。ネットワーク遅延によるKLdivergenceが重要度サンプリングの失敗を引き起こす高い分散を引き起こす問題を特定し、改善されたサンプリングメカニズムによって重要度重み分散を減らすGroup Expectation Policy Optimization(GEPO)アルゴリズムを提示します。 GEPOは理論的に指数関数的な分散減少を達成し、実験結果は1800秒の遅延下でも3%未満の性能低下しか見せず、GRPOなど従来の方法より優れた安定性を維持することを示しています。これは、異機種ネットワークにおける分散RLに強い可能性を示唆する。

Takeaways、Limitations

Takeaways:
異機種分散環境における強化学習を用いた大規模言語モデルの効率的な後学習方法を提示
ネットワーク遅延に強い非同期RLアーキテクチャHeteroRLと効率的なサンプリング手法GEPOを提案
GEPOは理論的に指数的な分散低減を達成し、実験的にも優れた安定性を検証。
分散環境における大規模言語モデルの学習と展開のための新しい可能性の提示
Limitations:
GEPOのパフォーマンス向上が特定のネットワーク環境または特定のタイプのLLMに限定される可能性。
実験環境の制約による実際の分散環境における一般化性能の追加検証が必要
HeteroRLのスケーラビリティと他の分散学習環境での適用性に関するさらなる研究の必要性
👍