본 논문은 기계 학습에서 약한 모델의 성능이 강한 모델로 일반화되는 현상(weak-to-strong generalization)을 데이터 중심적 관점에서 분석합니다. 이러한 일반화 현상의 핵심 요소로 'overlap density' 개념을 제시하며, 이는 약한 모델과 강한 모델 모두 학습 가능한 패턴이 공존하는 데이터 포인트의 수를 의미합니다. 논문에서는 overlap density를 측정하는 실용적인 알고리즘을 제안하고, 여러 데이터 소스 중 overlap density를 극대화하는 데이터를 선택하는 알고리즘과 이에 대한 후회 상한(regret bound)을 제시합니다. 다양한 실험 설정에서 제안된 메커니즘과 알고리즘의 효과를 검증합니다.