Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

AutoScale: Scale-Aware Data Mixing for Pre-Training LLMs

Created by
  • Haebom

저자

Feiyang Kang, Yifan Sun, Bingbing Wen, Si Chen, Dawn Song, Rafid Mahmood, Ruoxi Jia

AutoScale: A Scale-Aware Data Composition Framework for LLM Pre-training

개요

본 논문은 LLM 사전 학습의 효율성과 효과를 향상시키기 위해 다양한 데이터 소스의 상대적 가중치를 조정하는 도메인 재가중(Domain reweighting) 연구에 대한 내용을 담고 있다. 특히, 소규모 실험에서 좋은 성능을 보인 데이터 혼합이 대규모에서는 이점을 유지하지 못할 수 있다는 점을 지적하며, 이를 해결하기 위해 두 단계의 규모 인식 데이터 구성 프레임워크인 AutoScale을 제안한다. AutoScale은 먼저 다양한 데이터 구성 하에서 모델의 손실을 예측하는 매개변수 모델을 적합시킨 후, 이를 사용하여 더 작은 예산에서 최적의 할당을 찾는다. 그 다음, 최적의 구성이 규모에 따라 어떻게 진화하는지에 대한 새로운 이론적 분석을 활용하여, 추가 재훈련 없이 해당 구성을 더 큰 예산으로 외삽한다. AutoScale은 수렴 속도를 높이고 다운스트림 성능을 향상시키며, GPT-2 Large 모델 사전 학습 시 기존 방법보다 28% 빠른 perplexity 감소를 보이고, 가중치 없는 학습보다 최대 38%의 속도 향상을 달성했다. 또한, 다양한 다운스트림 작업에서 최상의 평균 결과를 보였다.

시사점, 한계점

시사점:
LLM 사전 학습에서 데이터 구성의 중요성을 강조하며, 규모에 따라 데이터 중요도가 변화함을 보여줌.
소규모 실험 결과를 대규모 학습에 직접 적용하는 기존 방식의 한계를 지적하고, 규모를 고려한 데이터 구성의 필요성을 제시.
AutoScale 프레임워크를 통해 수렴 속도 및 다운스트림 성능 향상 효과를 입증.
오픈 소스 코드를 제공하여 연구의 접근성을 높임.
한계점:
본 논문에서 구체적으로 언급된 한계점은 없음.
👍