Sign In

Compositional Entailment Learning for Hyperbolic Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Avik Pal, Max van Spengler, Guido Maria D'Amely di Melendugno, Alessandro Flaborea, Fabio Galasso, Pascal Mettes

개요

본 논문은 이미지와 텍스트의 계층적 특성을 활용하여 초고성능 비전-언어 모델을 제시합니다. 기존의 이미지-텍스트 쌍을 단순히 비교하는 방식에서 벗어나, 이미지를 여러 개의 객체 박스로 분할하고 각 박스에 대한 텍스트 설명을 활용하여 계층적 표현 학습을 수행합니다. 이는 문장에서 명사를 추출하고 공개된 지역화 기반 모델을 이용하여 구현됩니다. 쌍곡 공간을 활용하여 이미지, 객체 박스, 텍스트 설명 간의 계층적 관계를 대조 학습 및 함축 학습 목표를 통해 학습합니다. 실험 결과, 제안된 방법은 기존 유클리드 CLIP 학습 및 다른 쌍곡 비전-언어 모델들을 능가하는 제로샷 및 검색 성능 향상과 더욱 강력한 계층적 성능을 보여줍니다.

시사점, 한계점

시사점:
이미지와 텍스트의 계층적 특성을 효과적으로 활용하는 새로운 비전-언어 모델 학습 방법 제시.
쌍곡 공간을 이용한 효율적인 계층적 표현 학습.
기존 방법 대비 향상된 제로샷 및 검색 성능, 강화된 계층적 성능 달성.
객체 박스와 텍스트 설명을 활용하여 추가적인 정보 활용.
한계점:
지역화 기반 모델의 정확도에 성능이 의존적일 수 있음.
대규모 데이터셋에 대한 학습 필요성.
특정 도메인에 대한 성능 일반화 여부에 대한 추가 연구 필요.
👍