Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Created by
  • Haebom

作者

Ziwei Zhou、Rui Wang、Zuxuan Wu

概要

本論文では、ビジュアルと音響情報が豊富な日常生活映像684をベースにした新しいベンチマークであるDaily-Omniを紹介します。 Daily-Omniは、6つの主要な課題にわたって1197個の複数選択式クエリ応答(QA)ペアを含むオーディオビジュアルクエリ応答ベンチマークです。また、効率的なデータ生成パイプライン(Daily-Omni QA Generation Pipeline)とオープンソースビジュアル言語モデル(VLM)、音響言語モデル(ALM)、自動音声認識(ASR)モデルを活用した基準モデル(Daily-Omni-Agent)を提示します。研究の結果、現在のマルチモーダル大規模言語モデル(MLLM)はオーディオビジュアル統合を必要とする作業では困難ですが、VLMとALMを簡単なタイムアライメント技術と組み合わせることでパフォーマンスが大幅に向上することを示しています。コードとベンチマークはFitHubで公開されています。

Takeaways、Limitations

Takeaways:
日常生活シナリオベースの新しいオーディオビジュアルクエリ応答ベンチマークDaily-Omniを提供
Daily-Omniのための効率的なデータ生成パイプラインの提示
既存MLLMのオーディオビジュアル統合能力の限界を明らかにする
VLMとALMの簡単な組み合わせによる性能向上の可能性の提示
オーディオビジュアル情報処理研究の発展に貢献
Limitations:
Daily-Omniベンチマークの規模が比較的小さい場合がある
提示されたDaily-Omni-Agentはtraining-freeモデルであり、より洗練されたモデル開発の必要性の存在
さまざまな種類のオーディオビジュアルデータと質問タイプの追加研究が必要
👍