본 논문은 기존 대규모 언어 모델(LLM)을 새로운 언어에 적용하는 데 널리 사용되는 지속적 사전 학습(CPT) 방법에서 영어 데이터의 역할을 연구합니다. 연구 결과, 영어 데이터를 포함하면 검증 퍼플렉서티에는 영향을 미치지 않지만, 목표 언어의 하위 작업 능력 향상에는 중요한 역할을 한다는 것을 밝혔습니다. 영어 데이터를 포함하지 않은 CPT에서는 문맥 내 학습(ICL) 능력의 급격한 감소가 발생하며, 이는 훈련 후반부에 정확도 저하로 이어지기 전에 이미 목표 언어의 하위 프롬프트에 대한 일반화 능력을 손상시키고 모델 파라미터의 큰 변화와 관련이 있음을 보였습니다. 이러한 통찰을 바탕으로 영어 데이터 사용을 줄이기 위한 커리큘럼 학습과 가중치의 지수 이동 평균(EMA) 방법을 제시합니다. 결론적으로, 본 논문은 언어 적응을 위한 CPT에서 새롭게 등장하는 능력의 역학을 밝히고, 보다 효과적인 방법을 설계하기 위한 기초를 제공합니다.