Alexander Acker, Soeren Becker, Sasho Nedelkoski, Dominik Scheinert, Odej Kao, Philipp Wiesner
개요
본 논문은 대규모 언어 모델(LLM) 훈련이 중앙 집중식으로 이루어지는 상황에서, 통신 제약이 있는 분산 환경에서의 훈련 방법을 연구한다. nanochat 프로젝트를 사용하여 DiLoCo 알고리즘을 구현하고, 이를 기존의 데이터 병렬(DDP) 방식과 비교한다. DiLoCo는 통신량을 줄이지만, 성능 저하를 발생시키는 것을 발견하고, 그 원인을 분석한다.
시사점, 한계점
•
DiLoCo 알고리즘을 사용한 분산 훈련은 통신량을 줄이는 데 효과적이다.
•
DiLoCo는 사전 훈련 단계에서는 경쟁력 있는 성능을 보이지만, 중간 훈련 및 SFT 단계에서 성능 저하를 보인다.
•
DiLoCo를 사용하여 사전 훈련된 가중치로 DDP 방식으로 훈련을 재개해도 성능 회복이 어렵다.
•
비동기 업데이트로 인한 표현 드리프트가 downstream task 성능 저하의 원인으로 분석된다.