Este artículo aborda el fenómeno en el que los modelos de lenguaje visual (VLM) encuentran conflictos de conocimiento entre el conocimiento interno de parámetros y la información externa al realizar tareas complejas utilizando múltiples fuentes de conocimiento. Dichos conflictos pueden conducir a alucinaciones y respuestas poco fiables, pero sus mecanismos de funcionamiento aún se desconocen. En este artículo, presentamos un conjunto de datos de consultas contrafácticas multimodales que contradice intencionalmente el conocimiento interno de sentido común y analizamos el mecanismo por el cual los VLM resuelven conflictos intermodales. Mediante inspección logit, identificamos un pequeño número de cabezas que controlan conflictos y demostramos que estas cabezas pueden modificarse para inducir al modelo a producir resultados basados en conocimiento interno o entrada visual. Finalmente, demostramos que la atención de estas cabezas identifica con precisión las regiones locales que causan anulaciones visuales y que es más precisa que la atribución basada en gradientes.