Revisiting Replay and Gradient Alignment for Continual Pre-Training of Large Language Models

작성자

Haebom

카테고리

Empty

저자

Istabrak Abbes, Gopeshh Subbaraj, Matthew Riemer, Nizar Islah, Benjamin Therien, Tsuguchika Tabaru, Hiroaki Kingetsu, Sarath Chandar, Irina Rish

개요

본 논문은 대규모 언어 모델(LLM)의 지속적 사전 훈련(continual pre-training)에 초점을 맞추고 있습니다. 기존의 LLM 훈련 방식은 새로운 데이터가 생길 때마다 처음부터 다시 훈련하는 반면, 지속적 사전 훈련은 기존 모델을 새로운 데이터로 업데이트하여 자원을 효율적으로 사용합니다. 하지만 새로운 데이터는 분포 변화를 야기하여 기존 학습된 작업의 성능 저하를 초래할 수 있습니다. 본 논문에서는 이러한 분포 변화 문제를 해결하기 위한 두 가지 방법, 즉 경험 재현(experience replay)과 기울기 정렬(gradient alignment)을 Llama 계열의 LLM에 적용하여 연구했습니다. 각 언어별 1000억 토큰의 데이터를 사용하여 다양한 규모의 모델과 작업에 대해 실험한 결과, 두 방법 모두 망각 없이 안정적인 학습을 가능하게 함을 확인했습니다. 특히, 기울기 정렬 기법을 LLM 사전 훈련에 적용한 최초의 연구이며, 계산 및 메모리 오버헤드가 거의 없는 효율적인 메타 경험 재현(MER)을 제안했습니다. 모델 크기와 재현 비율에 대한 분석 결과, 작은 비율의 경험 재현이 모델 크기 확장보다 컴퓨팅 자원 활용 측면에서 효율적이며, 높은 재현 비율보다 모델 크기 확장이 더 효율적임을 보였습니다.