본 논문은 대규모 언어 모델에서 지속적 사전 훈련(CPT)의 학습 역학을 탐구합니다. 특히, 각 훈련 단계에서 일반 성능과 하위 도메인 성능이 어떻게 변화하는지, 도메인 성능은 검증 손실을 통해 측정하여 분석합니다. CPT 손실 곡선이 분포 변화와 학습률 어닐링의 효과를 분리하여 설명될 수 있는, 하나의 곡선에서 다른 숨겨진 곡선으로의 전이를 근본적으로 특징짓는다는 것을 발견했습니다. 두 요소를 결합한 CPT 스케일링 법칙을 도출하여 CPT에서 모든 (지속적인) 훈련 단계와 학습률 일정(LRS)에 걸쳐 손실을 예측할 수 있도록 합니다. 본 연구는 손실 잠재력, 최고 학습률, 훈련 단계, 재생 비율 등 CPT의 여러 중요 요소에 대한 포괄적인 이해를 제시하며, 일반 성능과 도메인 특정 성능 간의 균형 등 다양한 CPT 목표에 맞게 훈련 하이퍼파라미터를 사용자 지정하는 데 적용될 수 있습니다. 광범위한 실험을 통해 다양한 CPT 데이터 세트와 훈련 하이퍼파라미터에 걸쳐 스케일링 법칙이 성립함을 보여줍니다.