Este artículo revela un fenómeno en el que los modelos de visión-lenguaje a gran escala (LVLM) perciben erróneamente entradas de texto sin evidencia visual como parte de una imagen, lo que genera errores. Al investigar la capacidad de los LVLM para determinar si los conceptos textuales están arraigados en una imagen, descubrimos las neuronas de conciencia de ausencia visual (VA), un subconjunto específico de neuronas de red de propagación hacia adelante (FFN) que señalan la ausencia visual con un patrón de activación único. Aprovechando este patrón, desarrollamos un módulo de detección que clasifica los tokens de entrada como visualmente arraigados. Con base en esta predicción, proponemos un método para mejorar el resultado reinterpretando la pregunta o reemplazando los tokens ausentes detectados durante la generación. Experimentos exhaustivos demuestran que el método propuesto mitiga eficazmente la tendencia del modelo a realizar suposiciones incorrectas sobre la presencia visual y es generalizable a una variedad de LVLM.