본 논문은 CLIP과 같은 비전-언어 모델의 내부 동작에 대한 이해를 높이기 위해, 어텐션 헤드에 대한 개념적 일관성을 연구합니다. OpenAI와 OpenCLIP의 6가지 모델을 대상으로, ChatGPT를 이용한 컨텍스트 학습과 LLM 기반 평가를 통해 어텐션 헤드에 개념 라벨을 부여하고, 개념 일관성 점수(CCS)라는 새로운 해석성 지표를 제안합니다. 실험 결과, 높은 CCS를 가진 어텐션 헤드는 모델 성능 유지에 중요하며, 특히 도메인 외 감지, 개념 특정 추론, 비디오-언어 이해 등에 중요한 역할을 한다는 것을 밝힙니다. 따라서 CCS는 CLIP 유사 모델을 분석하는 강력한 해석성 지표로 자리매김할 수 있음을 시사합니다.