यह शोधपत्र MESH का प्रस्ताव करता है, जो बड़े पैमाने के वीडियो मॉडल (LVM) में मतिभ्रम के व्यवस्थित मूल्यांकन के लिए एक नया मानक है। मौजूदा मानकों (Limitations) के मैन्युअल वर्गीकरण दृष्टिकोण से आगे बढ़ते हुए, MESH बुनियादी वस्तुओं, विस्तृत विशेषताओं और विषय-क्रिया युग्मों का आकलन करने के लिए प्रश्न-उत्तर पद्धति का उपयोग करता है, जो मानव वीडियो समझने की प्रक्रिया का अनुकरण करता है। MESH, LVM में मतिभ्रम की प्रभावी पहचान पर केंद्रित है, जिसमें द्विआधारी और बहुविकल्पीय प्रश्न और लक्ष्य एवं ट्रैप उदाहरण शामिल हैं। प्रायोगिक परिणाम दर्शाते हैं कि जहाँ LVM बुनियादी वस्तु और विशेषता पहचान में उत्कृष्ट हैं, वहीं कई विषयों वाले लंबे समय तक चलने वाले वीडियो में विस्तृत जानकारी या कई क्रियाओं को संसाधित करते समय उनकी मतिभ्रम दर उल्लेखनीय रूप से बढ़ जाती है।