CLIP과 같은 듀얼 인코더 아키텍처는 두 가지 유형의 입력을 공유 임베딩 공간으로 매핑하고 그 사이의 유사성을 예측합니다. 하지만 이러한 모델이 두 입력을 어떻게 비교하는지는 아직 명확하지 않습니다. 일반적인 1차 특징 귀속 방법은 예측이 개별 특징이 아닌 특징 상호작용에 의존하기 때문에 듀얼 인코더에 대한 제한된 통찰력만 제공합니다. 본 논문에서는 먼저 미분 가능한 듀얼 인코더의 예측을 입력 간의 특징 상호작용에 귀속시키는 2차 방법을 도출합니다. 두 번째로, 본 논문에서는 이 방법을 CLIP 모델에 적용하여 캡션의 부분과 이미지의 영역 간에 미세한 대응 관계를 학습함을 보여줍니다. CLIP 모델은 입력 모드 간의 객체를 일치시키고 불일치도 고려합니다. 그러나 이러한 시각-언어적 기반 능력은 객체 클래스 간에 크게 달라지며 도메인 외부 효과가 두드러집니다. 본 논문은 개별 오류뿐만 아니라 객체 적용 범위, 특이한 장면, 상관된 맥락을 포함한 체계적인 실패 범주를 식별할 수 있습니다.