Sign In

A Retrospect to Multi-prompt Learning across Vision and Language

Created by
  • Haebom
Category
Empty

저자

Ziliang Chen, Xin Huang, Quanlong Guan, Liang Lin, Weiqi Luo

개요

본 논문은 Vision-Language Pretraining Model (VLMs)의 급격한 발전에 발맞춰, 제한된 자원으로 다운스트림 작업에 빠르게 적응할 수 있도록 하는 Prompt Learning의 중요성을 강조한다. 특히, 기존 연구가 단일 프롬프트 패러다임에 집중하는 경향을 넘어, 멀티 프롬프트 학습의 기술적 잠재력을 탐구한다. 논문은 최근 관찰된 constant modality gap 현상을 학습 가능한 프롬프트로 확장하고, 멀티 프롬프트 증강을 통한 vision-language transfer의 우수성을 경험적 및 이론적으로 입증한다. 이를 바탕으로, VLMs에 의해 암묵적으로 정의된 에너지 기반 분포에서 인스턴스를 추출하여 여러 프롬프트 임베딩을 생성하는 에너지 기반 멀티 프롬프트 학습(EMPL)을 제안한다. EMPL은 파라미터 효율적일 뿐만 아니라, in-domain 및 out-of-domain open-vocabulary generalization 간의 균형을 유지하도록 설계되었다.

시사점, 한계점

시사점:
멀티 프롬프트 학습의 잠재력을 탐구하고, vision-language transfer의 우수성을 입증.
에너지 기반 멀티 프롬프트 학습(EMPL)을 제안하여 파라미터 효율성과 open-vocabulary generalization 균형 달성.
EMP 적용을 통해 기존 단일 프롬프트 방식의 한계를 극복.
다양한 실험을 통해 EMPL의 우수성을 검증.
한계점:
구체적인 VLMs 및 데이터셋에 대한 정보 부족.
제안된 EMPL의 이론적 분석 및 증명의 깊이에 대한 정보 부족.
다른 멀티 프롬프트 학습 방법과의 비교 분석 정보 부족.
👍