본 논문은 비전-언어 모델(VLMs)에서의 환각(hallucination) 문제를 해결하기 위해 인과적 관점을 도입한 연구입니다. VLMs는 이미지 캡션 생성, 시각적 질의응답, 추론 등 다양한 다중 모달 작업에서 뛰어난 성능을 보이지만, 시각적 맥락이나 프롬프트와 일치하지 않는 환각된 출력을 생성하는 경우가 많습니다. 이는 자율주행이나 의료 영상과 같은 중요한 응용 분야에서 신뢰성을 저해하는 요인입니다. 기존 연구에서는 통계적 편향, 언어적 사전 지식, 편향된 특징 학습 등을 환각의 원인으로 지적했지만, 구조적인 인과적 이해는 부족했습니다. 본 연구에서는 VLMs에 대한 인과 그래프를 구성하고 반사실적 분석을 통해 시각, 텍스트 및 이들의 상호 작용이 출력에 미치는 자연적 직접 효과(NDE)를 추정하여 환각을 분석하고 완화합니다. 구체적으로, 잘못된 모달 단축 경로와 올바른 융합 경로를 구분하는 구조적 인과 그래프 설계, 섭동된 이미지 표현, 환각된 텍스트 임베딩, 저하된 시각 입력을 사용한 모달 특유 및 교차 모달 NDE 추정, 각 모달에 대한 모델의 의존성을 동적으로 조정하는 테스트 시간 개입 모듈 구현의 세 단계로 구성됩니다. 실험 결과, 제안된 방법이 작업 성능을 유지하면서 환각을 크게 줄임을 보여줍니다. 코드는 공개적으로 제공됩니다.