Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

VGGSounder: Audio-Visual Evaluations for Foundation Models

Created by
  • Haebom

作者

Daniil Zverev, Thadd aus Wiedemer, Ameya Prabhu, Matthias Bethge, Wieland Brendel, A. Sophia Koepke

概要

オーディオビジュアルファンデーションモデルのマルチモーダル理解度を評価することが重要であり、VGGSoundデータセットがオーディオビジュアル分類評価に使用されます。しかし、VGGSoundは不完全なラベリング、クラスのネスト、モダリティの不一致などの限界を持っており、オーディオと視覚的能力の歪んだ評価をもたらします。この制限を解決するために、VGGSoundを拡張し、オーディオビジュアルファンデーションモデル評価用に特別に設計された包括的に再注釈付きのマルチラベルテストセットであるVGGSounderを提案します。 VGGSounderは詳細なモダリティアノテーションを提供し、モダリティ固有のパフォーマンス分析を可能にします。さらに、新しいモダリティ混同指標を使用して他の入力モダリティを追加したときのパフォーマンスの低下を分析することによって、モデルの制限を明らかにします。

Takeaways、Limitations

VGGSoundデータセットのLimitationsを克服するための新しいデータセット(VGGSounder)の提案
詳細なモダリティアノテーションにより、モダリティ別のパフォーマンス分析が可能
新しいモダリティ混同指標を用いたモデルのLimitationsの提示
VGGSoundデータセットのLimitations:不完全なラベリング、クラスネスト、モダリティの不一致
👍