본 논문은 대규모 신경망 모델 훈련 시 제한된 통신 대역폭 환경에서 효율적인 분산 학습 방법을 제안합니다. 기존의 Decoupled Momentum (DeMo) 기법을 활용하여 빠르게 변화하는 gradient 성분만 교환하고, 모멘텀은 지역적으로 누적하는 방식을 채택합니다. 특히, 단일 가속기로 처리할 수 없는 매우 큰 모델을 고려하여, 모델 파라미터를 노드 내 여러 가속기 간에 완전히 분할하는 하이브리드 분할 병렬 학습 전략인 FlexDeMo를 제시합니다. FlexDeMo는 노드 간 통신 대역폭 요구 사항을 줄이면서 DeMo의 장점을 결합하여 전체 gradient 동기화보다 빠른 훈련 속도를 달성합니다. 실험 결과, FlexDeMo는 AdamW와 전체 gradient 동기화를 사용하는 하이브리드 분할 병렬 학습과 유사한 검증 손실을 보이며, 특히 대역폭이 제한된 환경에서 더 빠른 훈련 속도를 보여줍니다.