Niklas Muennighoff, Alexander M. Rush, Boaz Barak, Teven Le Scao, Aleksandra Piktus, Nouamane Tazi, Sampo Pyysalo, Thomas Wolf, Colin Raffel
개요
본 논문은 언어 모델의 확장성에 대한 연구로, 인터넷 상의 텍스트 데이터 양의 한계를 고려하여 데이터 제약 환경에서의 언어 모델 확장성을 조사합니다. 최대 9000억 토큰의 훈련 데이터와 90억 파라미터 모델을 사용하여 데이터 반복 횟수와 계산 비용을 변화시키는 광범위한 실험을 수행했습니다. 실험 결과, 고정된 계산 비용 하에서 최대 4번의 데이터 반복 훈련은 고유한 데이터를 사용한 훈련과 비교하여 손실 변화가 미미함을 발견했습니다. 하지만 반복 횟수가 증가함에 따라 계산 비용 추가의 효과는 결국 0에 수렴합니다. 또한, 반복 토큰과 과도한 파라미터의 감소하는 가치를 고려하는 계산 최적화에 대한 확장 법칙을 제안하고 실험적으로 검증했습니다. 마지막으로, 코드 데이터 추가 또는 일반적으로 사용되는 필터 제거와 같은 데이터 부족 완화 방법을 실험했습니다. 총 400회의 훈련 결과에 대한 모델과 데이터셋은 https://github.com/huggingface/datablations 에서 공개적으로 제공됩니다.