Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

Created by
  • Haebom

作者

Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

概要

本論文は時間的・空間的複雑性が高く、長いコンテキストで質問に答えにくい長時間ビデオ理解の課題を解決するため、エージェントベースの検索戦略を活用するDeep Video Discovery(DVD)エージェントを提案します。行動に適したパラメータを設定し、収集された情報に基づいて内部推論を繰り返し改善します。コードは今後公開される予定です。

Takeaways、Limitations

Takeaways:
長時間ビデオを理解するための新しいエージェントベースのアプローチの提示
LLMの推論能力を活用した自律的なビデオ分析システムの構築
LVBenchデータセットで最先端のパフォーマンスを達成
様々なサイズのビデオデータベースに対する効率的な検索戦略の提示
Ablation studyとツール分析による詳細な洞察
Limitations:
コード公開前まで再現性検証の難しさ
さまざまな種類の長時間ビデオの一般化パフォーマンス検証が必要
エージェントの自律性と効率性に関するさらなる研究が必要
特定のベンチマークデータセットに対する依存性
👍