Cet article révèle un phénomène dans lequel les modèles vision-langage à grande échelle (LVLM) perçoivent à tort des entrées textuelles sans preuve visuelle comme faisant partie d'une image, ce qui entraîne des erreurs. En étudiant la capacité des LVLM à déterminer si les concepts textuels sont ancrés dans une image, nous avons découvert des neurones de perception de l'absence visuelle (VA), un sous-ensemble spécifique de neurones du réseau à réaction directe (FFN) qui signalent l'absence visuelle par un schéma d'activation unique. En exploitant ce schéma, nous développons un module de détection qui classe les jetons d'entrée comme étant ancrés visuellement. Sur la base de cette prédiction, nous proposons une méthode pour améliorer la sortie en réinterprétant la question ou en remplaçant les jetons absents détectés lors de la génération. Des expériences approfondies démontrent que la méthode proposée atténue efficacement la tendance du modèle à formuler des hypothèses erronées sur la présence visuelle et qu'elle est généralisable à divers LVLM.