본 논문은 초기화된 가중치부터 모델을 학습시키는 대신, 이미 사전 학습된 모델을 활용하여 새로운 지식을 통합하는 지속적 사전 학습(Continued Pretraining)의 비용 효율성에 초점을 맞춥니다. 기존 연구에서 데이터 품질이 확장 법칙의 상수에 영향을 미쳐 최적의 매개변수-토큰 할당 비율을 변경한다는 점을 바탕으로, 계산 자원이 제한된 상황에서 지속적 사전 학습 중 도메인 특화와 모델 크기 간의 상호 작용을 조사합니다. 법률, 의학, 회계 세 가지 도메인의 데이터를 사용하여 1.5B, 3B, 7B, 14B 매개변수를 가진 모델을 사전 학습시킨 후, 도메인별 시험으로 성능을 평가했습니다.