# When Dynamic Data Selection Meets Data Augmentation

### 저자

Suorong Yang, Peng Ye, Furao Shen, Dongzhan Zhou

### 개요

본 논문은 손실 없는 성능으로 훈련 속도를 높이기 위한 동적 데이터 선택과 데이터 증강을 통합하는 새로운 온라인 데이터 훈련 프레임워크를 제시합니다. 기존의 동적 데이터 선택 방법은 데이터 다양성 감소로 인한 일반화 성능 저하 문제를 가지는데, 본 연구는 각 샘플의 국소 밀도와 다중 모드 의미 일관성의 결합 분포를 추정하여 증강에 적합한 샘플을 선택하고 노이즈나 모호한 데이터는 제외함으로써 이 문제를 해결합니다.  ImageNet-1k에서 훈련 비용을 50% 줄이면서 성능 저하 없이  다양한 벤치마크 데이터셋과 아키텍처에서 기존 최첨단 방법보다 우수한 성능을 보였으며, 노이즈 저항성과 모델 강건성을 향상시켰습니다.

### 시사점, 한계점

- **시사점:**

    - 동적 데이터 선택과 데이터 증강을 통합하여 훈련 효율성과 성능 향상을 동시에 달성하는 새로운 프레임워크 제시.

    - 데이터셋 크기를 상당히 줄이면서 모델 일반화 성능을 유지하거나 향상시킴.

    - 노이즈 저항성 및 모델 강건성 향상.

    - ImageNet-1k와 같은 대규모 데이터셋에서 훈련 비용을 효과적으로 절감.

- **한계점:**

    - 제안된 방법의 계산 비용 및 메모리 요구량에 대한 자세한 분석 부족.

    - 다양한 데이터 유형 및 작업에 대한 일반화 성능 검증 추가 필요.

    - 국소 밀도와 다중 모드 의미 일관성의 결합 분포 추정 방법의  세부적인 설명 및 한계점 분석 부족.

[PDF 보기](https://arxiv.org/pdf/2505.03809)

![https://i.imgur.com/vPCX9Xa.jpeg](https://i.imgur.com/vPCX9Xa.jpeg)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).