본 논문은 시각-언어 모델(VLMs)에서의 환각(hallucination) 문제를 해결하기 위해 인과적 관점을 도입한 연구이다. VLMs는 이미지 캡션 생성, 시각적 질문 응답, 추론 등 다양한 작업에서 우수한 성능을 보이지만, 시각적 맥락이나 프롬프트와 일치하지 않는 환각된 출력을 생성하는 경우가 많다. 기존 연구는 통계적 편향, 언어적 사전 지식, 편향된 특징 학습 등을 환각의 원인으로 지적하지만, 구조화된 인과적 이해는 부족하다. 본 연구는 VLMs의 인과 그래프를 구성하고 반사실적 분석을 통해 시각 및 언어 모드, 그리고 이들의 상호 작용이 출력에 미치는 자연적 직접 효과(NDE)를 추정하여 환각을 분석하고 완화한다. 세 가지 단계로 구성된 접근 방식은 (1) 올바른 융합 경로와 잘못된 모드 단축 경로를 구분하기 위한 구조적 인과 그래프 설계, (2) 변형된 이미지 표현, 환각된 텍스트 임베딩, 저하된 시각 입력을 사용한 모드별 및 교차 모드 NDE 추정, (3) 각 모드에 대한 모델의 의존성을 동적으로 조정하는 테스트 시간 개입 모듈 구현으로 이루어진다. 실험 결과는 제안된 방법이 작업 성능을 유지하면서 환각을 크게 줄임을 보여주며, VLM의 신뢰성 향상을 위한 강력하고 해석 가능한 프레임워크를 제공한다.