Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

DiLoCoX: A Low-Communication Large-Scale Training Framework for Decentralized Cluster

Created by
  • Haebom

作者

Ji Qi, WenPeng Zhu, Li Li, Ming Wu, YingJun Wu, Wu He, Xun Gao, Jason Zeng, Michael Heinrich

概要

本論文は、1000億パラメータを超える巨大言語モデル(LLM)の分散学習のための低通信量分散クラスタトレーニングフレームワークであるDiLoCoXを提案します。 DiLoCoXは、パイプライン並列処理、二重最適化ポリシー、通信および地域トレーニングの1段階遅延冗長性、適応傾斜度圧縮技術を組み合わせて、モデル事前トレーニングの速度とパラメータの規模を大幅に向上させます。 1Gbpsネットワークで1070億パラメータのベースモデル事前訓練を成功裏に実行し、従来のAllReduceと比較して357倍の速度向上を達成しながら、モデル収束性の低下を最小限に抑えることを実験的に示しています。これは、1000億パラメータ以上のモデルに正常に適用された最初の分散学習フレームワークです。

Takeaways、Limitations

Takeaways:
1000億パラメータ以上の巨大言語モデルを遅いネットワーク環境でも効率的に学習できる可能性を提示します。
従来の高速相互接続中心の集中型クラスタへの依存性を下げ、分散クラスタの活用を拡張します。
低通信量分散学習フレームワークのパフォーマンスを向上させるための新しい技術(パイプライン並列処理、デュアル最適化ポリシー、1段階遅延冗長性、適応傾斜度圧縮)を提示し、その効果を実験的に検証します。
1000億パラメータ以上のモデルの分散学習の新たな可能性を開きました。
Limitations:
提示された方法論の一般性と、さまざまなネットワーク環境とモデルサイズのスケーラビリティに関するさらなる研究が必要です。
1Gbpsネットワーク環境での実験結果は、他のネットワーク環境でも同じパフォーマンスを保証しない可能性があります。
DiLoCoXの実装と最適化に関する詳細情報が不足している可能性があります。 (論文で詳しく扱っていない部分かもしれません。)
👍