Este artículo propone MESH, un nuevo modelo de referencia para la evaluación sistemática de alucinaciones en modelos de video a gran escala (MVE). Para superar las limitaciones de los modelos existentes, MESH utiliza un enfoque de preguntas y respuestas para evaluar objetos básicos, características detalladas y pares sujeto-acción de forma multicapa. Este enfoque imita el proceso humano de comprensión de video, con el objetivo de identificar con mayor precisión las causas de las alucinaciones en MVE. Los resultados experimentales demuestran que, si bien los MVE son hábiles para reconocer objetos y características básicas, su tasa de alucinaciones aumenta significativamente en escenas que contienen información detallada o acciones complejas de múltiples sujetos.