본 논문은 시각 언어 모델(VLM)의 환각(hallucination) 문제, 특히 지식 충돌 상황에서의 취약성을 다룹니다. 기존 연구가 단일 모달(unimodal) 모델의 강건성에 집중한 것과 달리, 본 연구는 다중 모달(multimodal) 영역에서의 지식 충돌에 대한 체계적인 조사를 수행합니다. 이를 위해 이미지의 표적화된 섭동(targeted image perturbations)을 적용하는 \segsub 프레임워크를 제시하고, VLM의 지식 충돌에 대한 취약성 패턴을 분석합니다. 분석 결과, VLM은 매개변수적 충돌(parametric conflicts)에는 어느 정도 강건하지만(20% 준수율), 반실제적 조건(counterfactual conditions) 식별 및 출처 충돌(source conflicts) 해결에는 매우 취약한 것으로 나타났습니다(각각 <30%, <1% 정확도). 또한, 문맥 풍부성과 환각률 간의 상관관계(r = -0.368, p = 0.003)를 밝혀 환각을 유발할 가능성이 높은 이미지의 유형을 제시합니다. 마지막으로, 제시된 벤치마크 데이터셋을 사용한 표적 미세 조정(targeted fine-tuning)을 통해 VLM의 지식 충돌 감지 성능을 향상시키고, 정보에 민감한 환경에서 환각에 강건한 다중 모달 시스템 개발의 기반을 마련합니다.