본 논문은 대규모 비전-언어 모델(LVLM)에서 발생하는 환각(hallucination) 문제를 해결하기 위한 새로운 방법을 제안합니다. LVLM은 문맥적으로 일관된 텍스트를 생성하지만, 시각적 입력과 일치하지 않는 환각 현상을 보이는데, 이는 실제 응용에 걸림돌이 됩니다. 기존 연구는 특정 모달리티(시각 또는 텍스트)의 특징이나 출력을 개선하는 데 초점을 맞췄지만, 시각적 의존성을 명시적이고 체계적으로 향상시키지는 못했습니다. 본 논문에서는 베이지안 관점에서 LVLM의 텍스트 생성 과정에서 시각적 의존성을 저하시키는 요인들을 포괄적으로 조사하고, 이를 바탕으로 환각 문제를 완화하기 위한 세 가지 측면의 방법을 제시합니다. 첫째, 모든 시각 토큰이 의미있는 텍스트 생성에 유익한 것은 아니므로, 불필요한 시각 토큰을 제거하여 간섭을 방지합니다. 둘째, LVLM이 부적절한 사전 정보를 인코딩하여 예상치 못한 단어를 생성할 수 있으므로, 베이지안 관점에서 사전 정보를 수정합니다. 셋째, 특정 단계부터 시각 토큰을 조건으로 한 다음 토큰 예측의 사후 확률이 어떤 유익한 시각 토큰에도 의존하지 않는 사전 분포로 붕괴될 수 있으므로, 환각을 피하기 위해 추가적인 텍스트 생성을 중단합니다. POPE, CHAIR, MME 세 가지 벤치마크에 대한 광범위한 실험을 통해 제안된 방법이 LVLM의 환각 문제를 일관되게 완화하고 기존 최첨단 기술보다 우수한 성능을 보임을 입증합니다.