Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

HumanVideo-MME: Benchmarking MLLMs for Human-Centric Video Understanding

Created by
  • Haebom

作者

Yuxuan Cai, Jiangning Zhang, Zhenye Gan, Qingdong He, Xiaobin Hu, Junwei Zhu, Yabiao Wang, Chengjie Wang, Zhucun Xue, Chaoyou Fu, Xinwei He, Xiang Bai

概要

本論文は、人間中心のビデオ理解に特化したMLLM(Multimodal Large Language Models)のための新しい評価ベンチマークであるHV-MMBenchを提案します。既存のベンチマークの制限を克服するために、HV-MMBenchは、さまざまな評価レベル、さまざまなデータ型、マルチドメインビデオカバレッジ、および時間範囲を含むMLLMの能力をより包括的に評価できるように設計されています。

Takeaways、Limitations

Takeaways:
人間中心のビデオを理解するためのMLLMの評価のための新しいベンチマークを提示し、モデルパフォーマンス評価の幅を広げます。
既存のベンチマークの制限を克服するために、さまざまな評価ディメンション、データ型、シナリオ、および時間範囲を提供します。
基本的な属性認識から高度な認知推論まで、さまざまな能力を評価するための13のタスクが含まれています。
Limitations:
この論文では具体的なLimitationsへの言及はありません。 (ただし、論文の特性上、ベンチマークの初期開発、データ収集の難しさ、特定ドメインに対する偏向の可能性などを潜在的な限界として推論可能)
👍