본 논문은 시각-언어 모델(VLMs)이 다양한 지식원을 활용하여 복잡한 작업을 수행하는 과정에서 내부 매개변수 지식과 외부 정보 간의 충돌(knowledge conflicts)을 겪는 현상에 대해 다룹니다. 이러한 충돌은 환각(hallucinations) 및 신뢰할 수 없는 응답으로 이어질 수 있지만, 그 작동 메커니즘은 아직 알려져 있지 않습니다. 논문에서는 의도적으로 내부 상식 지식과 모순되는 다중 모달 반실증적 질의(multimodal counterfactual queries) 데이터셋을 도입하여 VLMs가 교차 모드 충돌을 해결하는 메커니즘을 분석합니다. 로짓 검사(logit inspection)를 통해 충돌을 제어하는 소수의 헤드(heads)를 찾아내고, 이러한 헤드를 수정하여 모델이 내부 지식 또는 시각적 입력에 따라 결과를 생성하도록 유도할 수 있음을 보여줍니다. 마지막으로, 이러한 헤드의 어텐션(attention)이 시각적 무효화(visual overrides)를 일으키는 국부적인 영역을 정확하게 찾아내며, 기울기 기반 속성(gradient-based attribution)보다 정밀도가 높음을 보여줍니다.