대규모 비전-언어 모델(LVLMs)은 다양한 시각적 작업에서 인상적인 성능을 보여주지만, 환각(hallucination) 문제로 인해 여전히 제약을 받고 있습니다. 본 논문은 모델의 이미지 토큰에 대한 어텐션의 정확성을 평가하여 디코딩 전략을 동적으로 조정하는 새로운 방법인 혼합 디코딩(MoD)을 제안합니다. MoD는 원본 이미지 토큰과 모델이 주목한 이미지 토큰에서 생성된 출력 간의 일관성을 측정하여 어텐션의 정확성을 구분합니다. 출력이 일관성이 있으면(정확한 어텐션) 중요한 정보를 증폭하는 상보적 전략을 사용하고, 일관성이 없으면(잘못된 어텐션) 오해의 소지를 줄이는 대조적 전략을 사용합니다. 광범위한 실험을 통해 MoD가 여러 주요 벤치마크에서 기존 디코딩 방법보다 훨씬 우수한 성능을 보이며 LVLMs의 환각 문제를 효과적으로 완화함을 보여줍니다. 코드는 https://github.com/xlchen0205/MoD 에서 이용 가능합니다.