대규모 언어 모델(LLM) 사전 훈련에 메타데이터를 통합하여 훈련 속도를 높이는 연구가 진행되고 있으며, 기존 연구는 URL에만 집중했지만, 본 연구는 문서 품질 지표와 같은 다양한 메타데이터 유형을 탐구합니다. 효과적인 메타데이터의 공통점으로 더 세밀한 수준의 정보를 인코딩한다는 점을 확인하고, 메타데이터 추가 방식을 통해 훈련 효율성을 개선합니다. 또한, 마스크 손실로 훈련된 학습 가능한 메타 토큰을 통해 속도 향상의 일부를 회복하고, 프로빙을 통해 메타데이터가 학습에 미치는 영향을 분석합니다. 이 연구는 LLM 사전 훈련의 효율성과 효과를 모두 개선하기 위한 실질적인 지침을 제시합니다.