Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

Created by
  • Haebom

作者

Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

概要

本論文は、時間的・空間的複雑性が高く、長い文脈で質問に答えにくい長時間ビデオ理解の課題を解決するために、エージェントベースの検索戦略を活用するDeep Video Discovery(DVD)エージェントを提案します。既存のビデオエージェントの固定ワークフローとは異なり、DVDエージェントは自律的な特性を強調し、さまざまなサイズのビデオデータベースで検索指向のツールを利用します。 LLMの高度な推論能力を活用して現在の観察状態を計画し、戦略的にツールを選択し、行動に適切なパラメータを設定し、収集された情報に照らして内部推論を繰り返し改善します。長時間のビデオ理解ベンチマークの包括的な評価は、システム設計の卓越性を実証し、特にLVBenchデータセットでは、従来の研究よりもパフォーマンスを大幅に上回る最先端(SOTA)結果を達成しました。さらに、ablation studyとツール分析により、長時間のビデオを理解するためのインテリジェントなエージェントの発展についての洞察を提供し、コードが公開されました( https://github.com/microsoft/DeepVideoDiscovery )。

Takeaways、Limitations

Takeaways:
長時間ビデオを理解するための新しいエージェントベースのアプローチの提示
LLMの推論能力を活用した効果的なビデオ検索と理解戦略の提示
LVBenchデータセットでSOTAパフォーマンスを達成
エージェントの自律的な動作を強調した設計
公開されたコードによる再現性とその後の研究可能性の提供
Limitations:
本論文で提示されたLimitationsへの明示的な言及が不足している。さらなる分析により、具体的なLimitationsを特定する必要があります。
特定のデータセットのパフォーマンス評価に限定される可能性。さまざまなデータセットと操作の一般化パフォーマンス検証が必要です。
エージェントの複雑さと計算コストの分析不足実際の利用可能性に関するさらなる研究の必要性。
👍