Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Think With Videos For Agentic Long-Video Understanding

Created by
  • Haebom

作者

Huaying Yuan, Zheng Liu, Junjie Zhou, Hongjin Qian, Yan Shu, Nicu Sebe, Ji-Rong Wen, Zhicheng Dou

概要

本論文は、コンピュータビジョンの分野における困難な問題である長編ビデオ理解(LVU)を解決するために提案されたVideoExplorerフレームワークについて説明します。 VideoExplorerは、「ビデオと考える」原則に基づいて、計画、時間ベース、スケーラブルな認識を自然に融合し、一貫した推論プロセスを実行します。静的コンテキストの推論の代わりに、VideoExplorerはサブ質問を繰り返し定式化し、関連する瞬間を見つけ、最終的な答えに達するまで作業指向で時間的に拡張可能なビデオ理解を実行し、忠実で効率的で解釈可能な推論を可能にします。さらに、LVUトレーニングリソース不足の問題を解決するために、難易度適応サンプリングを使用して長編ビデオ推論データセットを構築しました。このデータセットに基づいて管理された軌跡の初期化と軌道レベルの好みの最適化の2段階のトレーニングパイプラインを設計し、ダウンストリーム補償によって導かれる適応型時間的基盤と反復的な情報統合を促進します。

Takeaways、Limitations

Takeaways:
「ビデオと考える」原則に基づく新しいフレームワーク、VideoExplorerの提案。
計画、時間ベース、スケーラブルな認識を統合し、一貫した推論を可能にします。
長編ビデオ推論のための新しいデータセットの構築。
2段階トレーニングパイプラインによる適応型時間的基盤と情報統合の実現
従来のベースラインと比較して優れた性能を証明。
強力な堅牢性、適応性、効率性を実証。
コード公開。
Limitations:
論文に記載されているLimitationsはありません。
👍