대규모 시각-언어 모델(LVLM)은 다양한 작업에서 놀라운 성공을 거두었지만, 입력 이미지에 없는 객체에 대한 설명을 생성하는 객체 환각과 같은 중요한 과제가 남아 있습니다. 본 연구에서는 시각 인코더(VE) 내의 불확실한 시각 토큰이 객체 환각의 주요 원인이라고 주장합니다. 통계 분석 결과, 높은 인식 불확실성을 가진 시각 토큰과 환각 발생 사이에 긍정적인 상관관계가 있음을 발견했습니다. 또한, 작은 적대적 섭동 하에서 큰 표현 편차를 보이는 초기 VE 레이어의 시각 토큰이 높은 인식 불확실성을 나타냄을 이론적 및 경험적으로 보여줍니다. 이러한 발견을 바탕으로 VE만 수정하여 객체 환각을 완화하는 간단하지만 효과적인 전략을 제안합니다. 이 방법은 적대적 섭동을 사용한 프록시 방법으로 불확실한 시각 토큰을 효율적으로 식별하고, VE 중간 레이어의 자기 주의 과정에서 이러한 불확실한 시각 토큰을 마스킹하여 시각적 인코딩에 미치는 영향을 억제함으로써 환각을 완화합니다. 광범위한 실험을 통해 제안하는 방법이 LVLM에서 객체 환각을 유의하게 감소시키며, 다른 기존 연구들과 시너지 효과를 낼 수 있음을 보였습니다.