Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

What happens when nanochat meets DiLoCo?

Created by
  • Haebom
Category
Empty

저자

Alexander Acker, Soeren Becker, Sasho Nedelkoski, Dominik Scheinert, Odej Kao, Philipp Wiesner

개요

본 논문은 대규모 언어 모델(LLM) 훈련이 중앙 집중식으로 이루어지는 상황에서, 통신 제약이 있는 분산 환경에서의 훈련 방법을 연구한다. nanochat 프로젝트를 사용하여 DiLoCo 알고리즘을 구현하고, 이를 기존의 데이터 병렬(DDP) 방식과 비교한다. DiLoCo는 통신량을 줄이지만, 성능 저하를 발생시키는 것을 발견하고, 그 원인을 분석한다.

시사점, 한계점

DiLoCo 알고리즘을 사용한 분산 훈련은 통신량을 줄이는 데 효과적이다.
DiLoCo는 사전 훈련 단계에서는 경쟁력 있는 성능을 보이지만, 중간 훈련 및 SFT 단계에서 성능 저하를 보인다.
DiLoCo를 사용하여 사전 훈련된 가중치로 DDP 방식으로 훈련을 재개해도 성능 회복이 어렵다.
비동기 업데이트로 인한 표현 드리프트가 downstream task 성능 저하의 원인으로 분석된다.
nanochat 프로젝트의 공식 포크를 제공하여 연구의 재현 가능성을 높였다.
연구는 nanochat의 작은 규모로 인해 제한적인 모델 크기를 다룬다.
다양한 모델 크기 및 데이터셋에 대한 일반화 가능성은 추가 연구가 필요하다.
👍