Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Deep Video Discovery: Agentic Search with Tool Use for Long-form Video Understanding

Created by
  • Haebom

저자

Xiaoyi Zhang, Zhaoyang Jia, Zongyu Guo, Jiahao Li, Bin Li, Houqiang Li, Yan Lu

개요

장시간 분량의 비디오 이해는 방대한 시공간적 복잡성과 긴 컨텍스트에서의 질문 응답의 어려움으로 인해 상당한 문제점을 안고 있다. 대규모 언어 모델(LLM)이 비디오 분석 능력과 긴 컨텍스트 처리에 있어 진전을 보였지만, 정보 밀도가 높은 장시간 비디오 처리에는 한계가 있다. 이를 극복하기 위해, 본 논문에서는 세분화된 비디오 클립에 대한 에이전트 기반 탐색 전략을 활용하는 Deep Video Discovery (DVD) 에이전트를 제안한다. DVD 에이전트는 다양한 쿼리에 일률적으로 적용되는 사전 정의된 워크플로우에 의존하는 기존 비디오 에이전트와 달리, 에이전트의 자율적이고 적응적인 특성을 강조한다. DVD 에이전트는 멀티-그레인 비디오 데이터베이스에서 제공되는 검색 중심의 도구들을 활용하여, LLM의 고급 추론 능력을 통해 현재 관찰 상태를 기반으로 계획하고, 수집된 정보를 바탕으로 다양한 쿼리에 적응적인 워크플로우를 전략적으로 선택하고 조정한다. 여러 장시간 비디오 이해 벤치마크에서 DVD 에이전트의 우수성을 입증했으며, 특히 어려운 LVBench 데이터셋에서 74.2%의 정확도를 달성하여 기존 연구들을 크게 뛰어넘는 성과를 보였고, 스크립트를 활용할 경우 76.0%까지 향상되었다.

시사점, 한계점

시사점:
자율적이고 적응적인 에이전트 기반의 비디오 이해 접근 방식 제시.
멀티-그레인 비디오 데이터베이스와 검색 중심 도구를 활용하여 LLM의 추론 능력 극대화.
LVBench 데이터셋에서 SOTA 달성 (정확도 74.2%, 스크립트 활용 시 76.0%).
한계점:
논문 내 한계점에 대한 직접적인 언급 없음. (단, 장시간 비디오 처리의 어려움을 해결하기 위해 제안되었다는 점을 고려할 때, 여전히 개선할 여지가 있을 수 있음).
👍