본 논문은 대규모 언어 모델(LLM)의 일반화 능력에 미치는 사전 학습 데이터의 적용 범위와 구성의 영향을 연구합니다. 기존의 데이터 믹싱 방법들이 훈련 역학과의 연관성 없이 소규모 프록시 모델의 최적화된 도메인 가중치를 적용하는 한계를 지적하며, 다중 무장 밴딧 알고리즘을 데이터 샘플링 전략으로 사용하는 온라인 데이터 믹싱(ODM) 방법을 개선합니다. 본 논문에서는 보조 actor-critic 네트워크를 통해 변화하는 도메인 가중치를 포착하고 보상 함수를 통해 도메인 간 상호 작용을 고려하는 actor-critic 기반 온라인 데이터 믹싱(AC-ODM) 방법을 제시합니다. 소규모 프록시 LLM을 환경으로 사용하여 훈련된 actor를 샘플링 전략으로 직접 적용하여 대규모 목표 LLM의 사전 훈련 효율성을 높이고 수렴 속도를 향상시킵니다. 실험 결과, AC-ODM-410M은 ODM보다 71% 빠르게 최적의 검증 perplexity에 도달하고, zero-shot MMLU 벤치마크에서 정확도가 27.5% 향상되었으며, HumanEval 벤치마크의 pass@1에서 2.23배 향상된 성능을 보였습니다.