본 논문은 이산 이미지 토큰화를 사용하는 대규모 비전-언어 모델(LVLMs)이 환각(hallucination) 현상을 보이는 원인을 조사하고 이를 완화하는 방법을 제시합니다. 연구진은 LVLMs의 환각이 훈련 과정에서 발생하는 시각적 사전 지식(visual priors) 때문이라고 가정합니다. 특정 이미지 토큰이 같은 공간 영역에서 자주 공동 발생하고 공유 객체를 나타낼 때, 이 토큰들은 해당 객체의 언어적 표현과 강하게 연관됩니다. 결과적으로 모델은 현재 존재하지 않는 토큰을 불러와 환각을 일으킬 수 있습니다. 이를 검증하기 위해, 연구진은 분할 데이터셋을 사용하여 이미지 토큰의 공동 발생 그래프를 구성하고, 대조 학습과 군집화 방법을 사용하여 유사한 시각적 맥락에서 자주 공동 발생하는 토큰을 그룹화합니다. 실험 결과, 환각은 주로 입력에서 지배적인 토큰이 있는 클러스터와 관련이 있으며, 특히 해당 클러스터에 존재하지 않는 토큰이 이미지에 있는 토큰보다 환각된 객체와 훨씬 더 높은 상관관계를 보이는 것을 발견했습니다. 이러한 관찰을 바탕으로, 연구진은 생성 과정 중에 시각적으로 없는 토큰의 영향을 억제하여 환각을 완화하는 방법을 제안합니다. 실험 결과, 제안된 방법은 표현력을 유지하면서 환각을 줄이는 것으로 나타났습니다.