Sign In

Understanding Hardness of Vision-Language Compositionality from A Token-level Causal Lens

Created by
  • Haebom
Category
Empty

저자

Ziliang Chen, Tianang Xiao, Jusheng Zhang, Yongsen Zheng, Xipeng Chen

개요

본 논문은 Contrastive Language-Image Pre-training (CLIP) 모델의 한계점인 구성적 추론 실패를 분석하고, 이를 해결하기 위한 새로운 프레임워크를 제시한다. CLIP은 이미지와 텍스트를 공통 임베딩 공간에 정렬하여 강력한 cross-modal 일반화를 달성하지만, 객체, 속성, 관계에 대한 구성적 추론에 어려움을 겪는다는 점에 주목한다. 이를 위해 토큰 단위의 인과적 표현 학습 (CRL) 프레임워크를 제안하며, CLIP의 대조적 목표가 문장 수준과 토큰 수준의 구조적 인과 모델 (SCM)에서 불변하는 잠재 변수를 복구할 수 있음을 증명한다. 특히 토큰 단위의 분석을 통해 CLIP의 구성적 취약성의 근본 원인인 "composition nonidentifiability"를 밝혀낸다. 또한, pseudo-optimal 텍스트 인코더가 존재하여 개념에 대한 SWAP, REPLACE, ADD 연산에 둔감하여, 올바른 캡션과 어려운 부정 샘플을 구별하지 못하는 현상을 설명한다. 마지막으로, 언어 측면의 비식별성이 시각적 실패와 연관되어 있으며, 반복적인 구성 연산자가 어려움을 가중시킨다는 점을 지적하며, 개선된 negative mining 전략의 필요성을 제기한다.

시사점, 한계점

시사점:
CLIP의 구성적 추론 실패에 대한 토큰 단위의 인과적 설명 제시.
Composition nonidentifiability라는 새로운 개념 제시 및 증명.
pseudo-optimal 텍스트 인코더의 존재를 밝히고, 이로 인한 문제점을 분석.
언어 측면의 비식별성이 시각적 실패로 이어지는 과정을 설명.
개선된 negative mining 전략의 필요성을 제기.
한계점:
구체적인 개선된 negative mining 전략에 대한 구체적인 방법론 제시 부족.
실험적 검증 및 다른 모델에 대한 일반화 가능성에 대한 추가 연구 필요.
제안된 CRL 프레임워크의 구현 및 성능 평가에 대한 상세 정보 부족.
👍