본 논문은 대규모 언어 모델(LLM)의 성능 향상에 데이터 선택의 중요성을 강조하며, 기존의 직관적이고 제한적인 데이터 선택 방식을 개선하기 위해 역발상적 접근 방식을 제시한다. LLM이 스스로 성능 향상에 도움이 되는 기준을 식별하도록 유도하여 텍스트 퍼플렉서티 이상의 원인에서 14가지 데이터 품질 기준을 도출하고, 15개의 응용 분야를 도입하여 도메인 믹싱을 지원한다. 이를 바탕으로 데이터 관리자(DataMan)를 훈련하여 4470억 토큰의 사전 훈련 말뭉치에 14가지 품질 등급과 도메인 유형을 주석으로 달았다. DataMan을 이용해 300억 토큰을 선택하여 13억 파라미터 언어 모델을 훈련한 결과, 기존 최고 성능 모델보다 문맥 내 학습(ICL), 퍼플렉서티, 지시 사항 따르기 능력이 향상되었으며, 특히 종합 점수 l=5 기반의 최고 성능 모델은 균일 샘플링을 사용한 모델보다 50% 많은 데이터로 훈련된 모델을 능가했다. 또한, DataMan에 의해 주석된 고품질 도메인 특정 데이터로 사전 훈련을 계속하여 도메인 특정 ICL 성능을 향상시켜 DataMan의 도메인 믹싱 능력을 검증했다. 퍼플렉서티와 ICL 성능 간의 불일치 분석을 통해 품질 순위의 중요성, 품질 기준의 상호 보완적 특성, 퍼플렉서티와의 낮은 상관관계를 강조하고, 사전 훈련 데이터셋의 구성, 품질 등급 분포, 원본 문서 출처를 자세히 분석했다.