Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

MUPA: Towards Multi-Path Agentic Reasoning for Grounded Video Question Answering

Created by
  • Haebom

作者

Jisheng Dang, Huilin Song, Junbin Xiao, Bimei Wang, Han Peng, Haoxuan Li, Xun Yang, Meng Wang, Tat-Seng Chua

概要

MUPAは、Grounded VideoQA(グラウンドビデオクエリ応答)の問題を解決するために提案されたマルチパスエージェントアプローチです。既存のマルチモーダルモデルが言語的事前知識と虚偽の相関関係に依存して正しく根拠のない予測をする問題を解決するために、ビデオ根拠の確認、質問の回答、回答の反映、および集計を統合する協力的なアプローチを使用します。 3つの独立した推論パスとマルチパス結果を判断および集約する反映エージェントを介して、一貫したクエリ応答と根拠確認を実行します。 20億個のパラメータのみを使用しながらも70億個のパラメータを使用する競合モデルを凌駕し、70億個のパラメータに拡張したときNExT-GQAで30.3%、DeVE-QAで47.4%のAcc@GQAという最先端の性能を達成します。

Takeaways、Limitations

Takeaways:
既存のGrounded VideoQAモデルの限界である言語的事前知識と虚偽の相関関係に対する過依存問題を効果的に解決。
少ないパラメータ(20億)でも既存の大規模モデル(70億)を凌駕する性能達成。
マルチパス推論と反映エージェントによる信頼できるビデオ - 言語理解の向上。
Grounded VideoQAの分野における新しい最先端のパフォーマンス記録。
Limitations:
論文で具体的なLimitationsは言及されていません。
モデルのサイズを大きくしたときのパフォーマンスの向上が述べられていますが、パラメータの増加に伴うパフォーマンスの向上のLimitationsの分析が不足しています。
👍