Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Model Parallelism With Subnetwork Data Parallelism

Created by
  • Haebom

저자

Vaibhav Singh, Zafir Khalid, Edouard Oyallon, Eugene Belilovsky

개요

대규모 신경망 사전 훈련 시 발생하는 메모리 문제와 통신 비용 문제를 해결하기 위해, 활성값을 교환하지 않고 작업자 간에 모델을 분할하여 훈련하는 분산 훈련 프레임워크인 Subnetwork Data Parallelism (SDP)을 제안합니다. SDP는 후방 단계에서만 희소성을 적용하여 편향되지 않은 기울기를 유지하는 backward masking과, 순방향 단계에서도 매개변수를 제거하여 효율성을 높이고 정규화를 제공하는 forward masking을 포함한 두 가지 마스킹 방식을 연구합니다. 또한, CNN 및 트랜스포머에 적용되는 neuron level 및 block level의 두 가지 subnetwork 구성 전략을 탐구합니다. CIFAR, ImageNet의 CNN 및 트랜스포머, FineWeb에서의 LLM 사전 훈련 실험을 통해 SDP는 장치당 메모리 사용량을 30%-75% 줄이면서 성능을 유지하거나 향상시켰습니다. 특히, FLOP가 일치하는 설정에서 forward masking이 더 나은 성능을 달성할 수 있습니다.

시사점, 한계점

시사점:
SDP는 대규모 모델 훈련 시 메모리 사용량을 크게 줄여줍니다.
SDP는 성능 저하 없이, 또는 성능을 향상시키면서 효율성을 개선합니다.
Forward masking은 추가적인 정규화를 제공하고 FLOP-matched 설정에서 더 나은 성능을 보일 수 있습니다.
CNN 및 트랜스포머, 다양한 데이터셋과 LLM 사전 훈련에 적용 가능합니다.
한계점:
논문에 명시된 한계점은 제시되지 않았습니다.
👍