본 논문은 대규모 언어 모델(LLM)의 성능 향상을 위해 기존의 도메인 기반 데이터 믹싱 방식 대신, 세분화된 주제 기반 데이터 믹싱 전략을 제안합니다. 주제 모델링 기법인 DataWeave를 사용하여 의미적으로 유사한 문서들을 그룹화하고 LLM을 활용하여 상세한 주제를 생성하여 데이터셋 구성에 대한 이해도를 높입니다. DataWeave는 다단계 클러스터링 과정을 거치며, 특정 주제를 상향 또는 하향 샘플링하는 휴리스틱 방법을 통해 LLM의 하위 작업 성능을 크게 향상시키고, 기존의 복잡한 데이터 믹싱 방식보다 우수한 결과를 달성합니다. 특히 '과학'과 '관계' 주제가 성능 향상에 가장 효과적임을 확인하였으며, 코드와 데이터셋을 공개할 예정입니다.