Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding

Created by
  • Haebom
Category
Empty

저자

Hong Gao, Yiming Bao, Xuezhen Tu, Yutong Xu, Yue Jin, Yiyang Mu, Bin Zhong, Linan Yue, Min-Ling Zhang

개요

AVI(Agentic Video Intelligence)는 시각적 인식뿐만 아니라 복잡한 추론을 필요로 하는 비디오 이해를 위한 프레임워크입니다. 인간의 비디오 이해 방식을 모방하여, Retrieve-Perceive-Review의 3단계 추론 프로세스, 엔티티 그래프를 통해 구성된 구조화된 비디오 지식 베이스, 그리고 추론 LLM과 경량 CV 모델 및 VLM을 결합한 오픈 소스 모델 앙상블을 사용합니다. AVI는 독점 API나 강화 학습 훈련에 의존하지 않으면서 경쟁력 있는 성능과 우수한 해석 가능성을 제공합니다.

시사점, 한계점

시사점:
인간의 사고 과정을 모방한 3단계 추론 프로세스를 통해 비디오 이해 능력을 향상시킴.
오픈 소스 모델 앙상블을 활용하여 독점 API나 강화 학습 훈련의 의존성을 줄임.
LVBench, VideoMME-Long, LongVideoBench, Charades-STA 등 다양한 벤치마크에서 경쟁력 있는 성능을 보임.
해석 가능성을 제공하여 비디오 이해 과정을 투명하게 보여줌.
한계점:
해당 논문의 한계점은 명시적으로 언급되지 않음.
👍