본 논문은 랜덤 초기화된 가중치부터 모델을 학습하는 대신, 사전 학습된 모델을 활용하여 새로운 지식을 통합하는 지속적 사전 학습(Continued Pretraining)의 비용 효율성에 초점을 맞춥니다. 기존 연구에서 데이터 품질이 scaling laws의 상수에 영향을 미쳐 최적의 매개변수-토큰 할당 비율을 바꾼다는 점을 고려하여, 계산 자원이 제한된 상황에서 도메인 특화와 모델 크기 간의 상호 작용을 조사합니다. 법률, 의료, 회계 세 가지 도메인의 데이터를 사용하여 1.5B, 3B, 7B, 14B 매개변수를 가진 모델을 사전 학습하고, 도메인별 평가를 통해 성능을 비교 분석합니다. 결과적으로 모델 크기가 증가함에 따라 특화된 모델이 일반 모델보다 성능이 우수하고, 훈련 계산량이 적으며, 기존 지식의 손실도 줄어드는 것을 확인합니다.