Sign In

LLaVE: Large Language and Vision Embedding Models with Hardness-Weighted Contrastive Learning

Created by
  • Haebom
Category
Empty

저자

Zhibin Lan, Liqiang Niu, Fandong Meng, Jie Zhou, Jinsong Su

개요

본 논문은 기존의 다중 모달 임베딩 모델이 InfoNCE 손실 함수를 사용하여 훈련될 때 양성 쌍과 음성 쌍 간의 유사도 분포가 높은 중복을 보여 어려운 음성 쌍을 효과적으로 구별하는 데 어려움을 겪는다는 점을 지적합니다. 이 문제를 해결하기 위해, 본 논문에서는 음성 쌍의 판별 난이도에 따라 임베딩 모델의 표현 학습을 동적으로 개선하는 단순하면서도 효과적인 프레임워크를 제안합니다. LLaVE라는 일련의 모델을 훈련하여 MMEB 벤치마크에서 평가한 결과, 기존 최고 성능을 뛰어넘는 성능을 달성하고 확장성과 효율성이 뛰어남을 보였습니다. 특히, LLaVE-2B는 기존 최고 성능의 7B 모델을 능가했으며, LLaVE-7B는 추가적으로 6.2점의 성능 향상을 달성했습니다. 또한 이미지-텍스트 데이터로 훈련되었지만 제로샷 방식으로 텍스트-비디오 검색 작업에도 적용 가능하며 우수한 성능을 보여 다른 임베딩 작업으로의 전이 가능성을 보여줍니다.

시사점, 한계점

시사점:
다중 모달 임베딩 모델의 음성 쌍 판별 난이도에 따른 동적 학습 프레임워크의 효과성을 입증.
LLaVE 모델이 기존 최고 성능을 뛰어넘는 성능과 높은 효율성을 달성.
제로샷 학습을 통한 다른 모달리티(텍스트-비디오)로의 전이 가능성을 확인.
다양한 다중 모달 작업(이미지-텍스트 검색, 다중 모달 RAG, 다중 모달 클러스터링)에 적용 가능성 제시.
한계점:
논문에서 구체적인 한계점이 명시적으로 언급되지 않음. 추가적인 연구를 통해 LLaVE 모델의 일반화 성능, 특정 데이터셋에 대한 편향성, 계산 비용 등에 대한 분석이 필요할 수 있음.
👍