[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VladVA: Discriminative Fine-tuning of LVLMs

Created by
  • Haebom

저자

Yassine Ouali, Adrian Bulat, Alexandros Xenos, Anestis Zaganidis, Ioannis Maniadis Metaxas, Brais Martinez, Georgios Tzimiropoulos

개요

본 논문은 기존의 contrastively-trained Vision-Language Models (VLMs)의 한계점인 제한적인 언어 이해 능력과 Large Vision-Language Models (LVLMs)의 autoregressive 특성으로 인한 discriminative task 부적합성을 해결하고자, LVLMs를 discriminative하게 fine-tuning하는 새로운 학습 방법을 제안합니다. 이 방법은 생성형 LVLM을 판별형 모델로 전환하여 강력한 이미지-텍스트 판별 능력과 향상된 언어 이해 능력을 동시에 제공합니다. 제안하는 방법은 가변 길이 및 세분화된 이미지-텍스트 쌍을 이용하여 contrastive loss와 next-token prediction loss로 모델을 학습시키는 training/optimization framework, soft prompting과 LoRA adapter를 결합한 parameter-efficient adaptation method를 포함합니다. 실험 결과, 유사한 크기의 최첨단 CLIP 기반 모델들에 비해 이미지-텍스트 검색 벤치마크에서 상당한 성능 향상을 보였고, compositionality 측면에서도 개선을 이루었습니다.

시사점, 한계점

시사점:
LVLMs의 discriminative task 적용 가능성을 높임으로써, vision-language understanding 분야의 발전에 기여.
parameter-efficient adaptation method를 통해 LVLMs의 효율적인 fine-tuning 가능성 제시.
contrastive loss와 next-token prediction loss를 결합한 새로운 training framework 제시.
기존 CLIP 기반 모델 대비 성능 향상 및 compositionality 개선 확인.
한계점:
제안된 방법의 일반화 성능에 대한 추가적인 연구 필요.
다양한 downstream task에 대한 성능 평가가 추가적으로 필요.
제안된 framework의 복잡성 및 계산 비용에 대한 분석 필요.
특정 벤치마크에 대한 성능 향상이 다른 벤치마크에서도 일관되게 나타나는지 검증 필요.
👍