본 논문은 기존 대규모 언어 모델(LLM)을 새로운 언어에 적용하기 위한 인기 있는 방법인 지속적 사전 훈련(CPT)에서 영어 데이터의 역할을 분석합니다. 연구 결과, 영어 데이터를 포함하는 것이 검증 퍼플렉서티에는 영향을 미치지 않지만, 목표 언어의 후속 작업 능력 향상에는 중요한 역할을 한다는 것을 밝혔습니다. 특히, 영어 데이터를 포함하지 않을 경우 문맥 내 학습(ICL)에서 치명적인 망각이 발생하고, 이는 훈련 후반부에 정확도에 영향을 미치기 전에도 목표 언어의 후속 프롬프트에 대한 일반화 능력을 저하시키며 모델 파라미터의 큰 변화와 관련이 있다는 것을 언어 독립적인 ICL 벤치마크를 통해 보여줍니다. 이러한 통찰력을 바탕으로, 영어 데이터 사용을 완화하기 위한 커리큘럼 학습과 가중치의 지수 이동 평균(EMA)을 효과적인 대안으로 제시합니다. 결론적으로, 본 논문은 언어 적응을 위한 CPT에서 새로운 능력이 어떻게 나타나는지에 대한 역학을 밝히고, 향후 더 효과적인 방법을 설계하기 위한 기초를 제공합니다.