Sign In

Explaining Vision-Language Similarities in Dual Encoders with Feature-Pair Attributions

Created by
  • Haebom
Category
Empty

저자

Lucas Moller, Pascal Tilli, Ngoc Thang Vu, Sebastian Pado

개요

CLIP과 같은 듀얼 인코더 아키텍처는 두 가지 유형의 입력을 공유 임베딩 공간으로 매핑하고 그 사이의 유사성을 예측합니다. 하지만 이러한 모델이 두 입력을 어떻게 비교하는지는 아직 명확하지 않습니다. 일반적인 1차 특징 귀속 방법은 예측이 개별 특징이 아닌 특징 상호작용에 의존하기 때문에 듀얼 인코더에 대한 제한된 통찰력만 제공합니다. 본 논문에서는 먼저 미분 가능한 듀얼 인코더의 예측을 입력 간의 특징 상호작용에 귀속시키는 2차 방법을 도출합니다. 두 번째로, 본 논문에서는 이 방법을 CLIP 모델에 적용하여 캡션의 부분과 이미지의 영역 간에 미세한 대응 관계를 학습함을 보여줍니다. CLIP 모델은 입력 모드 간의 객체를 일치시키고 불일치도 고려합니다. 그러나 이러한 시각-언어적 기반 능력은 객체 클래스 간에 크게 달라지며 도메인 외부 효과가 두드러집니다. 본 논문은 개별 오류뿐만 아니라 객체 적용 범위, 특이한 장면, 상관된 맥락을 포함한 체계적인 실패 범주를 식별할 수 있습니다.

시사점, 한계점

시사점: 듀얼 인코더 모델의 예측을 입력 간의 특징 상호작용에 귀속시키는 새로운 2차 방법을 제시. CLIP 모델이 캡션과 이미지의 부분 간 미세한 대응 관계를 학습하고 객체 불일치를 고려함을 보임. CLIP 모델의 시각-언어적 기반 능력의 강점과 한계(객체 클래스 간 차이, 도메인 외부 효과, 오류 유형)를 규명.
한계점: 제안된 방법의 적용은 CLIP 모델에 국한됨. 객체 적용 범위, 특이한 장면, 상관된 맥락 등 체계적인 실패 범주에 대한 추가적인 분석 및 개선 필요. 다양한 듀얼 인코더 모델에 대한 일반화 가능성 검증 필요.
👍