Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

Created by
  • Haebom

作者

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

概要

この論文は、大規模言語モデル(LLM)の強化学習ベースのポストトレーニングにおける推論とトレーニング作業の間のシリアル変換問題を解決するためにEchoというシステムを提示します。既存のシステムは推論とポリシーの最適化を同じGPUクラスタで実行し、SPMDの仮定に違反しています。 2つの軽量同期プロトコル(シーケンシャルプルモードと非同期プッシュプルモード)を導入して、統計的効率を維持しながらハードウェア使用率を最大化します。実験の結果、地理的に分散されたクラスタでさまざまなサイズのQwen LLMを使用したトレーニングでは、Echoは従来の方法と同じ収束速度と最終補償を達成しながら、推論作業を低コストのエッジハードウェアにオフロードすることを示しています。

Takeaways、Limitations

Takeaways:
大規模言語モデルの強化学習訓練における推論と訓練作業の分離は、ハードウェアの使用率を最大化し、コストを削減できることを示しています。
地理的に分散した異種ハードウェアを活用して、データセンタークラスのパフォーマンスを達成できることを示唆しています。
軽量同期プロトコルは統計的効率を維持しながら分散訓練の効率を高めることができることを示した。
Limitations:
提示された実験は特定のLLM(Qwen)とクラスター環境に限定されており、一般化の可能性に関するさらなる研究が必要です。
様々な規模と種類のLLMのスケーラビリティと適用性に関するさらなる研究が必要です。
提案された同期プロトコルの最適化とさまざまな環境に関する適応性の研究が必要です。
👍