본 논문은 대규모 비전 언어 모델(LVLMs)이 이미지에 대한 잘못되거나 오해의 소지가 있는 특징을 부여하는 환각(hallucination) 문제를 다룹니다. LVLMs가 질의와 관련 없는 배경이나 비객체 영역과 같은 이미지 토큰의 작은 하위 집합(blind tokens)에 불균형적으로 집중하는 현상을 관찰하고, 이러한 주의력 불일치가 환각 응답 생성의 주요 원인이라고 가정합니다. 이를 해결하기 위해, 기존의 어텐션 메커니즘을 수정하지 않고 테스트 시간에 blind tokens의 영향을 동적으로 재조정하는 Attentional Vision Calibration (AvisC) 방법을 제안합니다. AvisC는 계층별 어텐션 분포를 분석하여 blind tokens를 식별하고, 대조적인 디코딩 전략을 사용하여 원래 로짓과 blind-token-biased 로짓의 영향을 균형 있게 조정합니다. POPE, MME, AMBER와 같은 표준 벤치마크 실험을 통해 AvisC가 LVLMs의 환각을 효과적으로 줄이는 것을 보여줍니다.