대규모 딥러닝 모델 학습에는 방대한 양의 데이터가 필요하며, 이를 위해 위키피디아, 깃허브 등 다양한 도메인에서 데이터를 수집합니다. 각 도메인은 데이터 품질과 정보의 다양성에서 차이를 보이므로, 각 도메인에 얼마나 의존해야 하는지에 대한 문제가 제기됩니다. 본 연구는 데이터 혼합의 역할을 더 깊이 이해하기 위해, 배치에서 각 도메인의 기여도를 제어하는 샘플링 가중치와 훈련 중 각 도메인의 손실을 조절하는 손실 가중치, 두 가지 유형의 가중치를 연구합니다. 선형 회귀에 대한 엄격한 연구를 통해, 두 가중치가 상호 보완적인 역할을 함을 보여줍니다. 첫째, 확률적 경사 하강법(SGD)과 같은 반복적 방법에서 기울기 추정치의 분산을 줄일 수 있습니다. 둘째, 일반화 격차를 줄여 일반화 성능을 향상시킬 수 있습니다. 또한, 두 가중치를 결합하여 각 기여도를 포착하는 방법을 연구합니다.