Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Model Parallelism With Subnetwork Data Parallelism

Created by
  • Haebom

저자

Vaibhav Singh, Zafir Khalid, Edouard Oyallon, Eugene Belilovsky

Subnetwork Data Parallelism (SDP)

개요

대규모 신경망 사전 학습은 가속기에 과도한 메모리 요구 사항을 부과하고 종종 비용이 많이 드는 통신을 필요로 한다. 본 논문에서는 활성화를 교환하지 않고 작업자 간에 훈련되는 구조화된 서브 네트워크로 모델을 분할하는 분산 학습 프레임워크인 Subnetwork Data Parallelism (SDP)을 소개한다. 본 연구에서는 두 가지 보완적인 마스킹 방식을 연구한다. 역방향 마스킹은 편향되지 않은 기울기를 유지하기 위해 역방향 단계에서만 희소성을 적용하고, 정방향 마스킹은 정방향 패스에서 매개변수를 제거하여 더 강력한 효율성 향상을 제공하는 동시에 추가적인 정규화를 제공한다. 또한 CNN 및 트랜스포머에 적용되는 뉴런 레벨 및 블록 레벨의 두 가지 서브 네트워크 구성 전략을 탐구한다. CIFAR 및 ImageNet의 CNN 및 트랜스포머, FineWeb의 LLM 사전 학습에 대한 실험에서 SDP는 성능을 유지하거나 개선하면서 장치당 메모리 사용량을 30%-75% 줄였다. 특히, FLOP 일치 설정에서 정방향 마스킹은 때때로 더 나은 성능을 달성할 수 있다.

시사점, 한계점

시사점:
SDP는 대규모 신경망 훈련 시 메모리 사용량을 줄이는 효과적인 방법이다.
역방향 마스킹과 정방향 마스킹을 통해 다양한 효율성 및 정규화 효과를 얻을 수 있다.
뉴런 레벨 및 블록 레벨의 서브 네트워크 구성 전략을 통해 다양한 모델 구조에 적용 가능하다.
FLOP 일치 설정에서 정방향 마스킹은 성능을 향상시킬 수 있다.
한계점:
본 논문에서 제시된 방법들의 구체적인 성능 향상 및 감소에 대한 자세한 분석이 부족할 수 있다.
다른 모델 아키텍처 또는 데이터셋에서의 SDP의 일반화 가능성에 대한 추가 연구가 필요하다.
구현 및 튜닝에 대한 복잡성이 존재할 수 있다.
👍