Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

OmniEval: A Benchmark for Evaluating Omni-modal Models with Visual, Auditory, and Textual Inputs

Created by
  • Haebom

作者

Yiman Zhang, Ziheng Luo, Qiangyu Yan, Wei He, Borui Jiang, Xinghao Chen, Kai Han

概要

この論文では、マルチモーダリティ(視覚、聴覚、テキスト)モデルを評価するための新しいベンチマークであるOmniEvalを紹介します。 OmniEvalは、既存のベンチマークとは異なり、オーディオとビデオ間の強力な相互作用を評価する課題を含む、マルチモーダリティの協力的な認識能力を評価します。 810のオーディオビデオ同期ビデオ(285の中国語、525の英語)と2617のクエリ応答ペア(1412のオープンな質問、1205の選択肢の質問)で構成され、3つの主要な課題タイプと12のサブタスクの種類に分類されます。特に、ビデオ内の特定の部分を見つけるより細かい課題であるGroundingを新たに導入しました。複数のマルチモダリティモデルを用いた実験結果も提示し、すべてのモダリティのコンテキストで一貫性を構築し理解する能力を評価するプラットフォームとしてOmniEvalの活用を提示します。コードとデータはhttps://omnieval-benchmark.github.io/で確認できます。

Takeaways、Limitations

Takeaways:
マルチモダリティモデルの協力的知覚能力を総合的に評価できる新しいベンチマークOmniEvalを提供します。
さまざまな言語(中国語、英語)や課題の種類(オープンな質問、多岐にわたる質問、Grounding)を含む包括的な評価が可能です。
マルチモダリティモデルのパフォーマンス比較と向上のための標準プラットフォームを提供します。
Limitations:
現在、ベンチマークに含まれるビデオの数と言語が制限されている可能性があります。 (810ビデオ、中国語、英語のみ)
OmniEvalがあらゆる種類のマルチモダリティモデルに適用可能であることをさらに検証する必要があります。
ベンチマークの課題構成と評価指標の客観性と公平性に関する追加の議論が必要になる場合があります。
👍