本論文では、ビジュアルと音響情報が豊富な日常生活映像684をベースにした新しいベンチマークであるDaily-Omniを紹介します。 Daily-Omniは、6つの主要な課題にわたって1197個の複数選択式クエリ応答(QA)ペアを含むオーディオビジュアルクエリ応答ベンチマークです。また、効率的なデータ生成パイプライン(Daily-Omni QA Generation Pipeline)とオープンソースビジュアル言語モデル(VLM)、音響言語モデル(ALM)、自動音声認識(ASR)モデルを活用した基準モデル(Daily-Omni-Agent)を提示します。研究の結果、現在のマルチモーダル大規模言語モデル(MLLM)はオーディオビジュアル統合を必要とする作業では困難ですが、VLMとALMを簡単なタイムアライメント技術と組み合わせることでパフォーマンスが大幅に向上することを示しています。コードとベンチマークはFitHubで公開されています。