Cet article propose MESH, un nouveau benchmark pour l'évaluation systématique des hallucinations dans les modèles vidéo à grande échelle (MVL). Pour surmonter les limites des benchmarks existants, MESH utilise une approche par questions-réponses pour évaluer les objets de base, les caractéristiques détaillées et les paires sujet-action de manière multicouche. Cette approche imite le processus humain de compréhension vidéo, visant à identifier plus précisément les causes des hallucinations dans les MVL. Les résultats expérimentaux démontrent que, si les MVL sont capables de reconnaître les objets et les caractéristiques de base, leur taux d'hallucinations augmente significativement dans les scènes contenant des informations détaillées ou des actions complexes impliquant plusieurs sujets.