本稿では、大規模ビデオモデル(LVM)の幻覚問題を体系的に評価するための新しいベンチマークであるMESHを提案します。既存のベンチマークのLimitationsである手動分類方式を超えて、クエリ応答方式を利用して基本的なオブジェクト、詳細な特徴、サブジェクトと行動のペアなどを評価することで、人間のビデオ理解プロセスを模倣します。 MESHは、バイナリ形式とマルチ選択形式の質問、正解と誤解など、LVMの幻覚を効果的に識別することに焦点を当てています。実験の結果、LVMは基本的なオブジェクトと特徴認識に優れていますが、詳細や複数のプリンシパルが関連する長期ビデオの複数の行為を処理するときに幻覚の発生率が大幅に増加することを示しています。