본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 기존의 소스 기반 데이터 혼합 방식 대신 주제 기반 데이터 혼합 전략을 제시합니다. 다양한 언어, 출처, 주제를 포함하는 이질적인 데이터를 효과적으로 통합하는 데 초점을 맞추어, 비지도 클러스터링, LLM 기반 요약, 지도 분류기 훈련을 결합한 다단계 과정을 통해 상세한 주제 레이블을 생성합니다. 여러 데이터 혼합 전략(RegMix, DoReMi, 온도 기반 샘플링, 수동 혼합 방식)에 걸쳐 주제 기반과 소스 기반 분할 방식을 비교 분석하여, 주제 기반 데이터로 사전 훈련된 언어 모델이 소스 기반으로 훈련된 모델보다 일관되게 우수한 성능을 보임을 실험적으로 증명합니다. 또한, 주제 기반 데이터가 소스 기반 접근 방식보다 유효성 검사 손실을 훨씬 낮춰 모델 훈련에 더 나은 최적화 환경을 조성함을 이론적으로 분석합니다. 마지막으로, 코드, 주석이 달린 데이터셋, 주제 분류 모델을 공개하여 추가 연구를 지원합니다.