본 논문은 LLM 사전 학습의 효율성과 효과를 향상시키기 위해 다양한 데이터 소스의 상대적 가중치를 조정하는 도메인 재가중(Domain reweighting) 연구에 대한 내용을 담고 있다. 특히, 소규모 실험에서 좋은 성능을 보인 데이터 혼합이 대규모에서는 이점을 유지하지 못할 수 있다는 점을 지적하며, 이를 해결하기 위해 두 단계의 규모 인식 데이터 구성 프레임워크인 AutoScale을 제안한다. AutoScale은 먼저 다양한 데이터 구성 하에서 모델의 손실을 예측하는 매개변수 모델을 적합시킨 후, 이를 사용하여 더 작은 예산에서 최적의 할당을 찾는다. 그 다음, 최적의 구성이 규모에 따라 어떻게 진화하는지에 대한 새로운 이론적 분석을 활용하여, 추가 재훈련 없이 해당 구성을 더 큰 예산으로 외삽한다. AutoScale은 수렴 속도를 높이고 다운스트림 성능을 향상시키며, GPT-2 Large 모델 사전 학습 시 기존 방법보다 28% 빠른 perplexity 감소를 보이고, 가중치 없는 학습보다 최대 38%의 속도 향상을 달성했다. 또한, 다양한 다운스트림 작업에서 최상의 평균 결과를 보였다.