CLIP과 같은 듀얼 인코더 아키텍처는 두 가지 유형의 입력을 공유 임베딩 공간으로 매핑하고 그 사이의 유사성을 예측합니다. 본 논문은 기존의 1차 특징 귀속 방법의 한계를 지적하며, 듀얼 인코더의 예측이 개별 특징이 아닌 특징 상호작용에 의존한다는 점을 강조합니다. 이에 따라 2차 방법론을 제시하여 듀얼 인코더의 예측을 입력 간 특징 상호작용에 귀속시키고, CLIP 모델에 적용하여 이미지 영역과 캡션 부분 간의 세밀한 대응 관계를 분석합니다. CLIP 모델이 입력 모드 간 객체를 매칭하고 불일치도 고려하지만, 객체 클래스 간 성능 차이가 크고 도메인 외 영향을 크게 받는다는 것을 보여줍니다. 또한, 객체 범위, 특이한 장면, 상관된 맥락 등의 체계적인 오류 범주를 식별합니다.