Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding
Created by
Haebom
作者
Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu
概要
本論文は時間的・空間的複雑性が高く、長いコンテキストで質問に答えにくい長時間ビデオ理解の課題を解決するため、エージェントベースの検索戦略を活用するDeep Video Discovery(DVD)エージェントを提案します。行動に適したパラメータを設定し、収集された情報に基づいて内部推論を繰り返し改善します。コードは今後公開される予定です。