본 논문은 Vision-Language Pretraining Model (VLMs)의 급격한 발전에 발맞춰, 제한된 자원으로 다운스트림 작업에 빠르게 적응할 수 있도록 하는 Prompt Learning의 중요성을 강조한다. 특히, 기존 연구가 단일 프롬프트 패러다임에 집중하는 경향을 넘어, 멀티 프롬프트 학습의 기술적 잠재력을 탐구한다. 논문은 최근 관찰된 constant modality gap 현상을 학습 가능한 프롬프트로 확장하고, 멀티 프롬프트 증강을 통한 vision-language transfer의 우수성을 경험적 및 이론적으로 입증한다. 이를 바탕으로, VLMs에 의해 암묵적으로 정의된 에너지 기반 분포에서 인스턴스를 추출하여 여러 프롬프트 임베딩을 생성하는 에너지 기반 멀티 프롬프트 학습(EMPL)을 제안한다. EMPL은 파라미터 효율적일 뿐만 아니라, in-domain 및 out-of-domain open-vocabulary generalization 간의 균형을 유지하도록 설계되었다.