분산 데이터 병렬 처리(DDP)를 사용한 대규모 모델 훈련은 빈번한 기울기 통신으로 대역폭을 소모한다. 빈번하지 않은 통신 전략(예: Local SGD)은 이러한 오버헤드를 줄이지만, 적응형 옵티마이저에 적용 시 완전 동기 DDP에 비해 성능 저하가 발생한다. 이 논문은 이러한 격차를 시간 척도 불일치로 분석한다. 즉, 빈번한 업데이트에 맞춰 조정된 옵티마이저의 빠른 모멘텀이 긴 간격 동안 기울기를 매끄럽게 하는 데 필요한 시간보다 너무 빨리 감쇠하여 노이즈가 지배적인 최적화로 이어진다. 이를 해결하기 위해, MT-DAO를 제안한다. MT-DAO는 여러 개의 느리고 빠르게 움직이는 첫 번째 모멘텀 또는 기울기를 사용하여 다른 시간 척도에서 업데이트 역학을 추적하는 옵티마이저 계열이며, 최초의 수렴 보장을 제공한다. 언어 모델 사전 훈련 실험에서, MT-DAO는 DDP와의 성능 격차를 해소하고, 복잡성 측면에서 빈번하지 않은 통신 기반보다 우수하며, 이더넷 상호 연결에서 동일한 토큰당 시간(wall-clock time)을 6-27% 감소시킨다. 720M 규모에서, MT-DAO는 단일 모멘텀 DDP 기준선보다 24% 적은 단계와 35% 적은 시간으로 목표 복잡성에 도달한다. MT-DAO는 효과적인 데이터 센터 간 훈련과 광범위한 지리적 영역에서의 훈련을 가능하게 한다.