# Contrastive Visual Data Augmentation

### 저자

Yu Zhou, Bingxuan Li, Mohan Tang, Xiaomeng Jin, Te-Lin Wu, Kuan-Hao Huang, Heng Ji, Kai-Wei Chang, Nanyun Peng

### 개요

본 논문은 대규모 다중 모달 모델(LMMs)이 새로운 개념을 인식하는 데 어려움을 겪는 문제를 해결하기 위해 대조적 시각 데이터 증강(CoDA) 전략을 제안합니다. CoDA는 대상 개념과 잘못 인식되는 알려진 개념 간의 대조적인 텍스트 및 시각적 특징을 추출하고, 다중 모달 생성 모델을 사용하여 표적 합성 데이터를 생성합니다. 추출된 특징과 증강된 이미지의 품질을 보장하기 위해 자동 필터링을 구현하고, 사람 평가자를 통해 검증합니다. iNaturalist, SUN, 그리고 새롭게 수집된 NovelSpecies 데이터셋(LMMs가 본 적 없는 새로 발견된 동물 종으로 구성)을 사용하여 CoDA의 효과성과 효율성을 보여줍니다. LLaVA-1.6 1-shot 업데이트 결과, CoDA는 기존 최고 성능의 시각적 데이터 증강 전략보다 NovelSpecies에서 12.3%, SUN에서 5.1%, iNaturalist에서 6.0%의 절대 정확도 향상을 달성했습니다.

### 시사점, 한계점

- **시사점:**

    - LMMs의 새로운 개념 인식 능력 향상에 효과적인 CoDA 전략 제시

    - 저자원 개념 및 다양한 장면 인식에서 기존 방법 대비 성능 향상 증명 (NovelSpecies, SUN, iNaturalist 데이터셋 실험 결과)

    - 다중 모달 생성 모델을 활용한 합성 데이터 생성 및 자동 필터링 기법의 효용성 확인

    - NovelSpecies 데이터셋을 통한 LMMs의 새로운 개념 인식 성능 평가 기준 제시

- **한계점:**

    - CoDA의 일반화 성능에 대한 추가적인 연구 필요

    - 다양한 LMMs 및 다양한 종류의 데이터셋에 대한 추가적인 실험 필요

    - 사람 평가자에 의존하는 부분이 존재, 객관적인 평가 지표 개발 필요

    - NovelSpecies 데이터셋의 규모가 제한적일 수 있음.  더욱 대규모의 데이터셋으로의 확장성 검증 필요

[PDF 보기](https://arxiv.org/pdf/2502.17709)

For the site tree, see the [root Markdown](https://slashpage.com/haebom.md).
