MT-DAO: Multi-Timescale Distributed Adaptive Optimizers with Local Updates

작성자

Haebom

카테고리

Empty

저자

Alex Iacob, Andrej Jovanovic, Mher Safaryan, Meghdad Kurmanji, Lorenzo Sani, Samuel Horvath, William F. Shen, Xinchi Qiu, Nicholas D. Lane

MT-DAO: Multi-Timescale Dynamics for Adaptive Optimization in Distributed Deep Learning

개요

분산 데이터 병렬 처리(DDP)를 사용한 대규모 모델 훈련은 빈번한 기울기 통신으로 대역폭을 소모한다. 빈번하지 않은 통신 전략(예: Local SGD)은 이러한 오버헤드를 줄이지만, 적응형 옵티마이저에 적용 시 완전 동기 DDP에 비해 성능 저하가 발생한다. 이 논문은 이러한 격차를 시간 척도 불일치로 분석한다. 즉, 빈번한 업데이트에 맞춰 조정된 옵티마이저의 빠른 모멘텀이 긴 간격 동안 기울기를 매끄럽게 하는 데 필요한 시간보다 너무 빨리 감쇠하여 노이즈가 지배적인 최적화로 이어진다. 이를 해결하기 위해, MT-DAO를 제안한다. MT-DAO는 여러 개의 느리고 빠르게 움직이는 첫 번째 모멘텀 또는 기울기를 사용하여 다른 시간 척도에서 업데이트 역학을 추적하는 옵티마이저 계열이며, 최초의 수렴 보장을 제공한다. 언어 모델 사전 훈련 실험에서, MT-DAO는 DDP와의 성능 격차를 해소하고, 복잡성 측면에서 빈번하지 않은 통신 기반보다 우수하며, 이더넷 상호 연결에서 동일한 토큰당 시간(wall-clock time)을 6-27% 감소시킨다. 720M 규모에서, MT-DAO는 단일 모멘텀 DDP 기준선보다 24% 적은 단계와 35% 적은 시간으로 목표 복잡성에 도달한다. MT-DAO는 효과적인 데이터 센터 간 훈련과 광범위한 지리적 영역에서의 훈련을 가능하게 한다.