本稿では、オーディオ情報に焦点を当てたビデオ理解ベンチマークであるAVC(Audio-centric Video Understanding Benchmark)を提案します。従来の視覚情報中心のアプローチから逸脱し、オーディオが提供する文脈、感情的な手がかり、意味情報などをビデオの理解に重要な要素として強調します。 AVUTには、オーディオコンテンツとオーディオビジュアルインタラクションの理解を包括的に評価するさまざまな課題が含まれており、既存のベンチマークに表示される質問テキストだけで正解を推論できる「テキストショートカットの問題」を解決するための回答順列ベースのフィルタリングメカニズムを提示します。さまざまなオープンソースおよび独自のマルチモーダルLLMを対象に評価を行い、視聴覚LLMの欠陥を分析します。デモとデータはhttps://github.com/lark-png/AVUTで確認できます。