Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VideoDeepResearch: Long Video Understanding With Agentic Tool Using

Created by
  • Haebom

저자

Huaying Yuan, Zheng Liu, Junjie Zhou, Hongjin Qian, Ji-Rong Wen, Zhicheng Dou

개요

본 논문은 장시간 비디오 이해(LVU) 과제에 대한 기존의 다중 모달 대규모 언어 모델(MLLM)의 한계를 극복하기 위해, 텍스트 전용 대규모 추론 모델(LRM)과 다양한 모듈형 다중 모달 도구(다중 모달 검색 및 시각적 지각 도구 포함)를 결합한 새로운 에이전트 기반 프레임워크인 VideoDeepResearch를 제안합니다. VideoDeepResearch는 넓은 컨텍스트 창이나 강력한 시각적 지각 능력을 갖춘 기반 MLLM 없이도 추론을 통해 문제 해결 전략을 수립하고, 필요에 따라 선택적으로 비디오 콘텐츠에 접근하여 LVU 과제를 해결합니다. MLVU, Video-MME, LVBench와 같은 기존 LVU 벤치마크에서 기존 MLLM 기준 모델들을 상당히 능가하는 성능을 보이며, 각각 MLVU(test)에서 9.6%, LVBench에서 6.6%, LongVideoBench에서 3.9%의 성능 향상을 달성했습니다. 이는 에이전트 시스템이 LVU 문제의 주요 과제를 극복하는 데 효과적임을 보여줍니다.

시사점, 한계점

시사점:
넓은 컨텍스트 창이나 강력한 시각적 지각 능력을 가진 MLLM이 없어도, 에이전트 기반 접근 방식을 통해 LVU 문제를 효과적으로 해결할 수 있음을 보여줍니다.
모듈형 다중 모달 도구를 활용하여 LRM의 추론 능력을 보완함으로써, 기존 MLLM 기반 모델의 성능을 뛰어넘는 성과를 달성할 수 있음을 시사합니다.
에이전트 기반 시스템의 잠재력을 LVU 분야에 제시하며, 향후 연구 방향을 제시합니다.
한계점:
본 논문에서는 특정 모듈형 다중 모달 도구들의 성능에 의존적일 수 있습니다. 도구들의 성능 향상이 전체 시스템 성능에 직접적인 영향을 미칠 수 있습니다.
다양한 LVU 과제에 대한 일반화 성능에 대한 추가적인 연구가 필요합니다. 현재 실험은 특정 벤치마크에 국한되어 있습니다.
에이전트의 추론 과정의 투명성 및 설명 가능성에 대한 연구가 필요합니다. 복잡한 추론 과정을 이해하고 개선하는 것이 향후 과제입니다.
👍