# Data Balancing Strategies: A Systematic Survey of Resampling and Augmentation Methods

### 저자

Behnam Yousefimehr, Mehdi Ghatee, Javad Fazli, Shervin Ghaffari, Zahra Rafei, Mohammad Amin Seifi, Sajed Tavakoli, Abolfazl Nikahd, Mahdi Razi Gandomani, Alireza Orouji, Ramtin Mahmoudi Kashani, Sarina Heshmati, Negin Sadat Mousavi

### 💡 개요

본 논문은 머신러닝에서 발생하는 데이터 불균형 문제를 해결하기 위한 재샘플링 및 증강 기법들을 체계적으로 조사합니다. SMOTE와 같은 전통적인 오버샘플링 기법부터 딥 생성 모델, 언더샘플링, 하이브리드 방법, 앙상블 전략까지 다양한 방법론을 포괄적으로 검토합니다. 연구는 데이터 특성, 분류기, 평가 지표에 따라 최적의 방법이 달라짐을 보여주며, 향후 연구 방향을 제시합니다.

### 🔑 시사점 및 한계

- 특정 데이터셋 특성에 맞춰 재샘플링 및 증강 기법을 선택하는 것이 성능 향상의 핵심입니다.

- 딥 생성 모델과 같은 최신 기법들이 데이터 불균형 문제 해결에 새로운 가능성을 제시합니다.

- 모든 상황에 적용 가능한 단일 최적 기법은 존재하지 않으며, 방법론 선택 시 다양한 요소를 고려해야 합니다.

- 향후 연구는 자기 지도 학습, 확산 모델 기반 오버샘플링, 분포 보존 재샘플링 등에 집중될 것으로 예상됩니다.

---

[PDF 보기](https://arxiv.org/pdf/2505.13518)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).