본 논문은 대규모 신경망 모델 학습에 필요한 방대한 계산 자원을 효율적으로 사용하기 위한 새로운 분산 학습 전략인 FlexDeMo를 제안합니다. 기존의 DeMo (Decoupled Momentum) 방식은 단일 가속기에서 모델을 학습하는 것을 가정하지만, FlexDeMo는 노드 간 모델 파라미터를 완전히 분할하여 저장하고, 빠르게 변화하는 기울기 성분만 동기화함으로써 노드 간 통신량을 줄입니다. 이는 하이브리드 분할 데이터 병렬 학습 전략으로 볼 수 있습니다. 또한, DeMo, FlexDeMo, 그리고 DiLoCo와 같은 기존 분산 학습 방식을 일반화하는 DeToNATION 프레임워크를 제시하여 복제 방식의 새로운 변형과 DeMo에서 이루어진 선택에 대한 도전을 제시합니다. 언어 및 비전 영역에 대한 실험 결과, FlexDeMo는 AdamW와 전체 기울기 동기화를 사용하는 하이브리드 분할 데이터 병렬 학습과 유사한 검증 손실을 달성하면서 훨씬 빠른 속도를 보였습니다. 따라서 FlexDeMo는 가장 큰 머신러닝 모델을 위한 유망한 분산 학습 방식입니다.