Este artículo propone MESH, un nuevo modelo de referencia para la evaluación sistemática de alucinaciones en modelos de video a gran escala (MVE). Más allá del enfoque de clasificación manual de los modelos de referencia existentes (Limitations), MESH utiliza un enfoque de preguntas y respuestas para evaluar objetos básicos, características detalladas y pares sujeto-acción, imitando el proceso de comprensión de video humano. MESH se centra en la identificación eficaz de alucinaciones en MVE, incluyendo preguntas binarias y de opción múltiple, así como instancias de objetivo y trampa. Los resultados experimentales demuestran que, si bien los MVE destacan en el reconocimiento básico de objetos y características, su tasa de alucinaciones aumenta significativamente al procesar información detallada o múltiples acciones en videos de larga duración que involucran a múltiples sujetos.