Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Echo: Decoupling Inference and Training for Large-Scale RL Alignment on Heterogeneous Swarms

Created by
  • Haebom

作者

Jie Xiao, Changyuan Fan, Qingnan Ren, Alfred Long, Yuchen Zhang, Rymon Yu, Eric Yang, Lynn Ai, Shaoduo Gan

概要

この論文は、大規模言語モデル(LLM)の強化学習ベースのポストトレーニングで、推論とポリシーの最適化を同じGPUクラスタで実行する既存のアプローチの制限を指摘しています。これは、単一プログラムマルチデータ(SPMD)仮定に違反して効率を低下させます。そこで、本論文では、推論と訓練を異機種の「推論」と「訓練」スワームに分離し、統計的効率を維持するエコという強化学習システムを提案する。 Echoは、最小限のバイアスを得るためにAPI呼び出しに従ってポリシーの重みを更新する順次プルモードとハードウェア使用率を最大化するために、バージョンタグ付きロールアウトを再生バッファを介してストリーミングする非同期プッシュプルモードという2つの軽量同期プロトコルを導入します。 Qwen3-4B、Qwen2.5-7B、およびQwen3-32Bを使用して3つの代表的な強化学習タスクを地理的に分散したクラスタでトレーニングした結果、Echoは完全に共同配置されたVerl基準と収束速度と最終補償で同じパフォーマンスを示し、推論タスクを一般的なエッジハードウェアにオフロードします。これらの結果は、大規模LLM強化学習が分散型の異機種リソースを使用してデータセンターレベルのパフォーマンスを達成できることを示しています。

Takeaways、Limitations

Takeaways:
大規模言語モデルの強化学習から推論と訓練を分離し、地理的に分散した異機種リソースを効率的に活用する可能性を提示します。
データセンターレベルのパフォーマンスを維持しながら、推論作業をエッジハードウェアにオフロードすることでコストを削減できます。
シーケンシャルプルモードと非同期プッシュプルモードにより、統計的効率を維持しながらハードウェア使用率を最大化できます。
Limitations:
提案されたEchoシステムのスケーラビリティとさまざまなLLMとの互換性に関する追加の研究が必要です。
地理的に分散した環境で発生する可能性がある通信遅延とエラー処理の詳細な分析が必要です。
さまざまなハードウェア環境でのパフォーマンス評価がさらに必要です。
👍