대규모 신경망 사전 학습은 가속기에 과도한 메모리 요구 사항을 부과하고 종종 비용이 많이 드는 통신을 필요로 한다. 본 논문에서는 활성화를 교환하지 않고 작업자 간에 훈련되는 구조화된 서브 네트워크로 모델을 분할하는 분산 학습 프레임워크인 Subnetwork Data Parallelism (SDP)을 소개한다. 본 연구에서는 두 가지 보완적인 마스킹 방식을 연구한다. 역방향 마스킹은 편향되지 않은 기울기를 유지하기 위해 역방향 단계에서만 희소성을 적용하고, 정방향 마스킹은 정방향 패스에서 매개변수를 제거하여 더 강력한 효율성 향상을 제공하는 동시에 추가적인 정규화를 제공한다. 또한 CNN 및 트랜스포머에 적용되는 뉴런 레벨 및 블록 레벨의 두 가지 서브 네트워크 구성 전략을 탐구한다. CIFAR 및 ImageNet의 CNN 및 트랜스포머, FineWeb의 LLM 사전 학습에 대한 실험에서 SDP는 성능을 유지하거나 개선하면서 장치당 메모리 사용량을 30%-75% 줄였다. 특히, FLOP 일치 설정에서 정방향 마스킹은 때때로 더 나은 성능을 달성할 수 있다.