Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MESH - Understanding Videos Like Human: Measuring Hallucinations in Large Video Models

Created by
  • Haebom

作者

Garry Yang、Zizhe Chen、Man Hon Wong、Haoyu Lei、Yongqiang Chen、Zhenguo Li、Kaiwen Zhou、James Cheng

概要

本稿では、大規模ビデオモデル(LVM)の幻覚問題を体系的に評価するための新しいベンチマークであるMESHを提案します。既存のベンチマークのLimitationsである手動分類方式を超えて、クエリ応答方式を利用して基本的なオブジェクト、詳細な特徴、サブジェクトと行動のペアなどを評価することで、人間のビデオ理解プロセスを模倣します。 MESHは、バイナリ形式とマルチ選択形式の質問、正解と誤解など、LVMの幻覚を効果的に識別することに焦点を当てています。実験の結果、LVMは基本的なオブジェクトと特徴認識に優れていますが、詳細や複数のプリンシパルが関連する長期ビデオの複数の行為を処理するときに幻覚の発生率が大幅に増加することを示しています。

Takeaways、Limitations

Takeaways:
既存の手動分類方式に依存するビデオサイケデリック評価の限界を克服し、人間のビデオ理解プロセスに基づく新しい評価ベンチマークMESHを提示します。
MESHは、LVMの幻覚問題を体系的かつ効果的に評価し、改善の方向性を提供することができます。
LVMの幻覚発生の原因とパターンを分析し、パフォーマンスの向上に貢献できる洞察を提供します。
基本オブジェクトと特徴認識と複雑なシーケンス理解との間の性能差を明確に示した。
Limitations:
MESHベンチマーク自体の設計と構成の客観的な妥当性検証がさらに必要です。
現在、評価対象は特定のLVMに限定されている可能性があり、さまざまなモデルの一般化可能性検証が必要です。
人間のビデオ理解プロセスを完全に反映できない可能性があります。
ビデオの複雑さと長さによる幻覚発生率の変化のより深い分析が必要です。
👍