大規模ニューラルネットワークの事前学習は、加速器に過度のメモリ要件を課し、しばしば高価な通信を必要とします。本論文では、活性化を交換することなく作業者間で訓練される構造化サブネットワークにモデルを分割する分散学習フレームワークであるSubnetwork Data Parallelism(SDP)を紹介します。この研究では、2つの補完的なマスキングスキームを研究します。逆方向マスキングは、偏向されていない勾配を維持するために逆方向ステップでのみスパース性を適用し、順方向マスキングは、順方向パスからパラメータを除去し、より強力な効率向上を提供しながら追加の正規化を提供する。また、CNNとトランスに適用されるニューロンレベルとブロックレベルの2つのサブネットワーク構成戦略を探求します。 CIFARとImageNetのCNNとトランス、FineWebのLLM事前学習の実験では、SDPはパフォーマンスを維持または改善しながら、デバイスあたりのメモリ使用量を30%〜75%削減しました。特に、FLOPマッチング設定では、フォワードマスキングは時々より良いパフォーマンスを達成することができます。