Multimodal Large Language Models (MLLMs)의 환각 문제점을 지적하며, 이는 불필요한 배경 영역에 대한 과도한 주의와 스퓨리어스 상관관계에서 기인한다고 분석합니다. 결과 기반 보상이 스퓨리어스 상관관계를 유발하고, 이로 인해 환각이 발생할 수 있다고 주장합니다. 이러한 문제점을 해결하기 위해, 인과 관계 기반 정책 최적화(COPO)를 제안합니다. COPO는 토큰 수준에서 충분성과 필요성 제약을 부과하여 각 추론 토큰의 인과적 기여도를 측정하고, 정확하고 증거에 기반한 출력을 보장합니다.