대규모 신경망 사전 훈련 시 발생하는 메모리 문제와 통신 비용 문제를 해결하기 위해, 활성값을 교환하지 않고 작업자 간에 모델을 분할하여 훈련하는 분산 훈련 프레임워크인 Subnetwork Data Parallelism (SDP)을 제안합니다. SDP는 후방 단계에서만 희소성을 적용하여 편향되지 않은 기울기를 유지하는 backward masking과, 순방향 단계에서도 매개변수를 제거하여 효율성을 높이고 정규화를 제공하는 forward masking을 포함한 두 가지 마스킹 방식을 연구합니다. 또한, CNN 및 트랜스포머에 적용되는 neuron level 및 block level의 두 가지 subnetwork 구성 전략을 탐구합니다. CIFAR, ImageNet의 CNN 및 트랜스포머, FineWeb에서의 LLM 사전 훈련 실험을 통해 SDP는 장치당 메모리 사용량을 30%-75% 줄이면서 성능을 유지하거나 향상시켰습니다. 특히, FLOP가 일치하는 설정에서 forward masking이 더 나은 성능을 달성할 수 있습니다.