본 논문은 Contrastive Language-Image Pre-training (CLIP) 모델의 한계점인 구성적 추론 실패를 분석하고, 이를 해결하기 위한 새로운 프레임워크를 제시한다. CLIP은 이미지와 텍스트를 공통 임베딩 공간에 정렬하여 강력한 cross-modal 일반화를 달성하지만, 객체, 속성, 관계에 대한 구성적 추론에 어려움을 겪는다는 점에 주목한다. 이를 위해 토큰 단위의 인과적 표현 학습 (CRL) 프레임워크를 제안하며, CLIP의 대조적 목표가 문장 수준과 토큰 수준의 구조적 인과 모델 (SCM)에서 불변하는 잠재 변수를 복구할 수 있음을 증명한다. 특히 토큰 단위의 분석을 통해 CLIP의 구성적 취약성의 근본 원인인 "composition nonidentifiability"를 밝혀낸다. 또한, pseudo-optimal 텍스트 인코더가 존재하여 개념에 대한 SWAP, REPLACE, ADD 연산에 둔감하여, 올바른 캡션과 어려운 부정 샘플을 구별하지 못하는 현상을 설명한다. 마지막으로, 언어 측면의 비식별성이 시각적 실패와 연관되어 있으며, 반복적인 구성 연산자가 어려움을 가중시킨다는 점을 지적하며, 개선된 negative mining 전략의 필요성을 제기한다.