Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Brais Martinez, Georgios Tzimiropoulos
개요
본 논문은 기존의 contrastively-trained Vision-Language Models (VLMs)의 한계점인 제한적인 언어 이해 능력과 Large Vision-Language Models (LVLMs)의 autoregressive 특성으로 인한 discriminative task 부적합성을 해결하고자, LVLMs를 discriminative하게 fine-tuning하는 새로운 학습 방법을 제안합니다. 이 방법은 생성형 LVLM을 판별형 모델로 전환하여 강력한 이미지-텍스트 판별 능력과 향상된 언어 이해 능력을 동시에 제공합니다. 제안하는 방법은 가변 길이 및 세분화된 이미지-텍스트 쌍을 이용하여 contrastive loss와 next-token prediction loss로 모델을 학습시키는 training/optimization framework, soft prompting과 LoRA adapter를 결합한 parameter-efficient adaptation method를 포함합니다. 실험 결과, 유사한 크기의 최첨단 CLIP 기반 모델들에 비해 이미지-텍스트 검색 벤치마크에서 상당한 성능 향상을 보였고, compositionality 측면에서도 개선을 이루었습니다.
시사점, 한계점
•
시사점:
◦
LVLMs의 discriminative task 적용 가능성을 높임으로써, vision-language understanding 분야의 발전에 기여.
◦
parameter-efficient adaptation method를 통해 LVLMs의 효율적인 fine-tuning 가능성 제시.
◦
contrastive loss와 next-token prediction loss를 결합한 새로운 training framework 제시.