[데이터 전처리] 데이터 불균형
데이터 불균형 불균형 데이터 Imbalanced Data 분류 문제에서 가장 큰 문제는 불균형 데이터를 다루는 것이다. 데이터 불균형은 클래스 분포를 예측해야 하는 분류 문제에서 예측 라벨 값의 분포가 100:1, 200:1 등으로 불균형하게 나타나는 상태를 말한다. 불균형 데이터를 해결하지 않으면 과적합 문제가 발생할 수 있다. 이 문제를 효율적으로 다루기 위해서는 문제를 제대로 이해하고 전략을 잘 세워야 한다. 불균형 데이터의 원인 실제 세계에서의 분배 실제 세계에서 불균형하게 데이터가 구성 하나의 클래스가 다른 클래스에 비해서 덜 발생하는 경우 불법적인 신용 카드 거래는 정상적인 거래에 비해 훨씬 더 적게 일어난다. Data Collection bias 데이터 수집 편향이 데이터 불균형의 원인 어떤 질병이 끼치는 영향 중 극히 일부에만 집중해서 질병 발생 설문조사를 하는 경우, 대부분은 질병을 경험하지 못했다고 함 Event rarity 산업 환경에서 장비 고장같은 이벤트의 희귀성은 데이터 불균형을 초래함 불균형 데이터의 영향
- ML
- DataAnalysis
- YerimY