본 논문은 대규모 비전-언어 모델(LVLMs)에서 발생하는 환각(hallucination) 현상의 근본 원인을 조사하고, 이를 해결하기 위한 새로운 방법을 제시합니다. 기존의 환각 완화 기술은 시각적 요소에 대한 단순한 설명을 요구하는 시각 인식 프롬프트에는 효과적이지만, 심도있는 추론을 필요로 하는 인지적 프롬프트에는 효과가 떨어진다는 것을 발견했습니다. 이는 LVLMs이 시각 요소를 정확하게 인식할 수 있지만, 입력 프롬프트의 맥락에서 이러한 요소를 완전히 해석하고 내부 지식과 효과적으로 연결하는 데 어려움을 겪기 때문이라고 분석합니다. 이러한 문제를 해결하기 위해, 이미지에 대한 상세한 설명을 생성하여 프롬프트 앞에 추가하는 Visual Description Grounded Decoding (VDGD) 방법을 제안합니다. VDGD는 설명과의 KL divergence를 기반으로 토큰을 샘플링하여, divergence가 낮은 후보를 선호합니다. 다양한 시각적 추론 벤치마크와 LVLMs에 대한 실험 결과, VDGD는 기존 기준 모델보다 2%~33% 향상된 성능을 보였습니다. 마지막으로, LVLMs의 인지 능력을 포괄적으로 평가하기 위한 VaLLu 벤치마크를 제시합니다.