본 논문은 대규모 비전 및 언어 모델의 발전에 따라 제로샷 학습(zero-shot learning)에서 널리 사용되는 프롬프트 학습(prompt learning)의 한계를 극복하기 위해, 이미지 기반 데이터 증강 기법을 활용하는 새로운 방법론을 제시한다. 기존 연구들이 텍스트 기반 프롬프트 수정에 집중한 반면, 본 연구는 이미지 수준의 증강, 특히 속성별 변형을 통해 프롬프트 학습의 일반화 성능을 향상시키는 데 초점을 맞춘다. 또한, 의미적으로 유의미한 시각적 특징에 집중하는 프롬프트 학습을 위한 지침 부족 문제를 해결하기 위해, 적대적 토큰 임베딩을 도입하여 AAPL (Adding Attributes to Prompt Learning)을 제안한다. AAPL은 증강에 의해 도입된 표면적인 시각적 변형과 클래스 관련 의미 표현을 분리하여, 학습된 프롬프트가 시각적으로 구별되는 특징에 집중할 수 있도록 한다. 11개의 벤치마크 데이터셋에서 진행한 실험 결과, AAPL은 기존 방법들을 압도하는 성능을 보였다.