CLIP 기반 모델의 내부 동작에 대한 이해를 높이기 위해, 본 논문에서는 어텐션 헤드에 대한 개념적 일관성을 연구합니다. OpenAI 및 OpenCLIP의 6가지 CLIP 유사 모델을 대상으로, ChatGPT를 이용한 in-context learning과 LLM 기반 검증을 통해 어텐션 헤드에 개념 라벨을 부여하고, 개념 일관성 점수(CCS)라는 새로운 해석성 지표를 제안합니다. 실험 결과, 높은 CCS를 가진 어텐션 헤드는 모델 성능 유지에 중요하며, 도메인 외 감지, 개념 특정 추론, 비디오-언어 이해에 중요한 역할을 수행하지만 동시에 사회적 편향을 증폭하는 허위 상관관계를 학습하는 것을 발견했습니다. 따라서 CCS는 CLIP 모델의 성능과 사회적 편향이라는 역설을 드러내는 강력한 해석성 지표로 자리매김합니다.