본 논문은 장시간 비디오 이해(LVU) 과제에 대한 기존의 다중 모달 대규모 언어 모델(MLLM)의 한계를 극복하기 위해, 텍스트 전용 대규모 추론 모델(LRM)과 다양한 모듈형 다중 모달 도구(다중 모달 검색 및 시각적 지각 도구 포함)를 결합한 새로운 에이전트 기반 프레임워크인 VideoDeepResearch를 제안합니다. VideoDeepResearch는 넓은 컨텍스트 창이나 강력한 시각적 지각 능력을 갖춘 기반 MLLM 없이도 추론을 통해 문제 해결 전략을 수립하고, 필요에 따라 선택적으로 비디오 콘텐츠에 접근하여 LVU 과제를 해결합니다. MLVU, Video-MME, LVBench와 같은 기존 LVU 벤치마크에서 기존 MLLM 기준 모델들을 상당히 능가하는 성능을 보이며, 각각 MLVU(test)에서 9.6%, LVBench에서 6.6%, LongVideoBench에서 3.9%의 성능 향상을 달성했습니다. 이는 에이전트 시스템이 LVU 문제의 주요 과제를 극복하는 데 효과적임을 보여줍니다.