Sign In

Decoupling Augmentation Bias in Prompt Learning for Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Gahyeon Kim, Sohee Kim, Seokju Lee

개요

본 논문은 대규모 비전 및 언어 모델의 발전에 따라 제로샷 학습(zero-shot learning)에서 널리 사용되는 프롬프트 학습(prompt learning)의 한계를 극복하기 위해, 이미지 기반 데이터 증강 기법을 활용하는 새로운 방법론을 제시한다. 기존 연구들이 텍스트 기반 프롬프트 수정에 집중한 반면, 본 연구는 이미지 수준의 증강, 특히 속성별 변형을 통해 프롬프트 학습의 일반화 성능을 향상시키는 데 초점을 맞춘다. 또한, 의미적으로 유의미한 시각적 특징에 집중하는 프롬프트 학습을 위한 지침 부족 문제를 해결하기 위해, 적대적 토큰 임베딩을 도입하여 AAPL (Adding Attributes to Prompt Learning)을 제안한다. AAPL은 증강에 의해 도입된 표면적인 시각적 변형과 클래스 관련 의미 표현을 분리하여, 학습된 프롬프트가 시각적으로 구별되는 특징에 집중할 수 있도록 한다. 11개의 벤치마크 데이터셋에서 진행한 실험 결과, AAPL은 기존 방법들을 압도하는 성능을 보였다.

시사점, 한계점

시사점:
이미지 기반 증강 기법을 프롬프트 학습에 활용하여 제로샷 학습의 일반화 성능을 향상시켰다.
AAPL 방법론을 통해, 적대적 토큰 임베딩을 활용하여 시각적 변형과 의미 표현을 분리하는 새로운 접근 방식을 제시했다.
다양한 학습 설정(few-shot, zero-shot, cross-dataset, domain generalization)에서 기존 방법 대비 우수한 성능을 입증했다.
한계점:
CoCoOp과 같은 기존 방법론들이 의미적 시각적 특징에 집중하는 프롬프트 학습을 위한 명시적인 지침을 제공하지 못하는 한계를 지적하고 개선 방향을 제시했으나, 다른 한계점에 대한 구체적인 언급은 논문에 제시되지 않음.
👍