Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Model Parallelism With Subnetwork Data Parallelism

Created by
  • Haebom

作者

Vaibhav Singh, Zafir Khalid, Edouard Oyallon, Eugene Belilovsky

Subnetwork Data Parallelism (SDP)

概要

大規模ニューラルネットワークの事前学習は、加速器に過度のメモリ要件を課し、しばしば高価な通信を必要とします。本論文では、活性化を交換することなく作業者間で訓練される構造化サブネットワークにモデルを分割する分散学習フレームワークであるSubnetwork Data Parallelism(SDP)を紹介します。この研究では、2つの補完的なマスキングスキームを研究します。逆方向マスキングは、偏向されていない勾配を維持するために逆方向ステップでのみスパース性を適用し、順方向マスキングは、順方向パスからパラメータを除去し、より強力な効率向上を提供しながら追加の正規化を提供する。また、CNNとトランスに適用されるニューロンレベルとブロックレベルの2つのサブネットワーク構成戦略を探求します。 CIFARとImageNetのCNNとトランス、FineWebのLLM事前学習の実験では、SDPはパフォーマンスを維持または改善しながら、デバイスあたりのメモリ使用量を30%〜75%削減しました。特に、FLOPマッチング設定では、フォワードマスキングは時々より良いパフォーマンスを達成することができます。

Takeaways、Limitations

Takeaways:
SDPは、大規模ニューラルネットワークのトレーニング中にメモリ使用量を減らす効果的な方法です。
リバースマスキングとフォワードマスキングにより、さまざまな効率と正規化効果が得られます。
ニューロンレベルとブロックレベルのサブネットワーク構成戦略を通じて、様々なモデル構造に適用可能である。
FLOPマッチング設定では、フォワードマスキングはパフォーマンスを向上させることができます。
Limitations:
本論文で提示された方法の具体的な性能の向上および減少の詳細な分析が不足する可能性がある。
他のモデルアーキテクチャまたはデータセットにおけるSDPの一般化の可能性に関するさらなる研究が必要です。
実装とチューニングの複雑さがあるかもしれません。
👍