다중 모드 대규모 언어 모델(MLLM)은 비전-언어 과제에서 인상적인 성능을 보여주지만, 입력 이미지나 텍스트와 의미적으로 일관되지 않은 출력을 생성하는 환각 현상을 겪을 수 있습니다. 본 논문은 원인 분석을 통해 (i) 생략과 관련된 환각은 필수적인 인과적 요인을 충분히 포착하지 못해서 발생하고, (ii) 허구와 관련된 환각은 비인과적 단서에 의해 모델이 오도되어 발생한다는 것을 밝힙니다. 이러한 문제를 해결하기 위해, 본 논문은 인과적 완전성에 의해 안내되는 새로운 강화 학습 프레임워크를 제안합니다. 이 프레임워크는 토큰의 인과적 충족성과 인과적 필연성을 모두 고려하여 토큰 수준의 인과적 완전성 보상을 정의하고, 이를 GRPO 최적화 프레임워크 내에서 인과적으로 정보에 입각한 이점 함수를 구성하는 데 사용하여 정확한 생성에 인과적으로 충분하고 필요한 토큰에 집중하도록 모델을 장려합니다. 다양한 벤치마크 데이터셋과 과제에 대한 실험 결과는 제안된 방법이 MLLM의 환각을 효과적으로 완화함을 보여줍니다.