본 논문은 기계 학습에서 편향 증폭에 대한 경험적 증거가 증가하고 있음에도 불구하고, 그 이론적 기반은 여전히 잘 이해되지 않고 있다는 점을 지적합니다. 다수-소수 학습 과제를 위한 공식적인 프레임워크를 개발하여 표준 훈련이 어떻게 다수 그룹을 선호하고 소수 그룹 특징을 무시하는 고정관념적인 예측기를 생성하는지 보여줍니다. 모집단 및 분산 불균형을 가정하여, 세 가지 주요 결과를 밝힙니다: (i) "전체 데이터" 예측기와 고정관념적인 예측기 사이의 근접성, (ii) 전체 모델을 훈련하는 것이 단순히 다수의 특징만 학습하는 경향이 있는 영역의 우세, (iii) 필요한 추가 훈련에 대한 하한선. 이러한 결과는 표 형식 및 이미지 분류 작업에 대한 심층 학습 실험을 통해 설명됩니다.