본 논문은 대규모 비전-언어 모델(LVLMs)이 시각적 증거가 없는 텍스트 입력을 이미지의 일부로 잘못 인식하여 오류를 발생시키는 현상을 밝힙니다. 연구진은 LVLMs 내부에서 텍스트 개념이 이미지에 근거하는지 판단하는 능력을 조사하여, 시각적 부재를 독특한 활성 패턴으로 신호하는 피드포워드 네트워크(FFN) 뉴런의 특정 하위 집합인 시각적 부재 인식(VA) 뉴런을 발견했습니다. 이 패턴을 활용하여 입력 토큰이 시각적으로 근거하는지 분류하는 탐지 모듈을 개발하고, 이 예측에 따라 질문 프롬프트를 재해석하거나 생성 중에 감지된 부재 토큰을 대체하여 출력을 개선하는 방법을 제안합니다. 광범위한 실험을 통해 제안된 방법이 모델의 시각적 존재에 대한 잘못된 가정 경향을 효과적으로 완화하고 다양한 LVLMs에서 일반성을 갖는다는 것을 보여줍니다.