Este artículo explora la vulnerabilidad a errores de los modelos lingüísticos multimodales a gran escala (MLLM), específicamente el fenómeno de la incertidumbre de respuesta a la desinformación. Utilizando nueve conjuntos de datos estándar y doce MLLM de código abierto de vanguardia, los investigadores descubrieron que una sola señal engañosa resultó en una tasa de reversión del 65% de respuestas previamente correctas. Para analizar esto cuantitativamente, propusimos un proceso de evaluación en dos etapas (validando la respuesta original y midiendo la tasa de error después de inyectar la directiva engañosa) y creamos un Punto de Referencia de Incertidumbre Multimodal (MUB) mediante la recopilación de ejemplos con altas tasas de error. Evaluaciones exhaustivas en doce modelos de código abierto y cinco de código cerrado revelaron una tasa de error promedio superior al 86%, con un 67,19% para señales explícitas y un 80,67% para señales implícitas. Por último, ajustamos los MLLM de código abierto en un conjunto de datos de dirección mixta de 2000 muestras, reduciendo significativamente las tasas de error (6,97 % para señales explícitas y 32,77 % para señales implícitas).