대규모 시각-언어 모델(LVLM)은 강력하지만, 객체 환각으로 인해 신뢰성이 떨어진다. 본 연구에서는 많은 환각 예측에서 LVLM이 이미지를 무시하고 이전에 생성된 출력(prelim) 토큰에 의존하여 새로운 객체를 추론한다는 것을 보여준다. 이미지와 예측된 객체 간의 상호 정보를 계산하여 이 행동을 정량화하고, 약한 이미지 의존성이 환각과 강하게 관련되어 있음을 입증한다. 이를 기반으로, 사전 훈련 없이 주의 가중치에서 계산되는 가벼운 신호인 Prelim Attention Score (PAS)를 소개한다. PAS는 추가적인 순방향 패스를 요구하지 않으며 추론 중에 실시간으로 계산될 수 있다. 이전에 간과되었던 신호를 활용하여 PAS는 여러 모델과 데이터셋에서 최고 수준의 객체 환각 감지를 달성하여 실시간 필터링 및 개입을 가능하게 한다.