본 연구는 대규모 비전-언어 모델(LVLMs)의 환각 현상에 대한 개입 프레임워크를 제안합니다. 트랜스포머의 인과적 아키텍처에 맞춰 이미지-입력 텍스트, 이미지-출력 텍스트, 텍스트-텍스트 경로 간의 상호 작용을 분석하여 환각의 원인을 규명합니다. 특히 질문-답변 정렬 형식에 따라 다른 경로에 의존함을 밝혀냈습니다. 이를 바탕으로 차별적 및 생성적 형식에 맞춘 환각 헤드를 식별하고 개입하는 간단하고 효과적인 방법을 제안하며, 다양한 벤치마크에서 환각 감소 효과를 입증했습니다.