Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Modeling Caption Diversity in Contrastive Vision-Language Pretraining

Created by
  • Haebom

저자

Samuel Lavoie, Polina Kirichenko, Mark Ibrahim, Mahmoud Assran, Andrew Gordon Wilson, Aaron Courville, Nicolas Ballas

개요

본 논문은 이미지 캡션의 다양성을 고려하여 이미지와 캡션을 단일 벡터로 매핑하는 CLIP의 한계를 극복하는 새로운 모델인 Llip(Latent Language Image Pretraining)을 제안합니다. Llip은 이미지에 대한 다양한 캡션을 모델링하여, 텍스트 정보를 기반으로 시각적 특징을 혼합하여 최종 표현을 생성합니다. 대규모 인코더를 사용하여 다양한 작업에서 CLIP 및 SigLIP과 같은 비문맥 기반 모델보다 우수한 성능을 보임을 실험적으로 증명합니다. 특히, ImageNet에서 zero-shot top-1 정확도 83.5%를 달성하여 유사한 크기의 CLIP보다 1.4% 향상되었고, MS-COCO에서 zero-shot retrieval 성능을 6.0% 향상시켰습니다. 또한, Llip의 구성 요소에 대한 포괄적인 분석을 통해 더욱 풍부한 시각적 표현을 생성함을 보여줍니다.

시사점, 한계점

시사점:
이미지 캡션의 다양성을 효과적으로 모델링하는 새로운 접근법 제시
CLIP 및 SigLIP 등 기존 모델보다 우수한 zero-shot classification 및 retrieval 성능 달성
대규모 인코더에서도 효과적인 성능 향상
풍부한 시각적 표현 생성 가능성 제시
한계점:
본 논문에서 제시된 실험 결과는 특정 데이터셋 및 모델 크기에 국한될 수 있음. 다양한 데이터셋과 모델 크기에 대한 추가적인 실험이 필요함.
Llip의 계산 비용 및 복잡도에 대한 자세한 분석이 부족함.
Llip이 어떤 유형의 이미지나 캡션에 특히 강점을 보이는지에 대한 추가적인 분석이 필요함.
👍