Agentic Video Intelligence: A Flexible Framework for Advanced Video Exploration and Understanding
Created by
Haebom
Category
Empty
저자
Hong Gao, Yiming Bao, Xuezhen Tu, Yutong Xu, Yue Jin, Yiyang Mu, Bin Zhong, Linan Yue, Min-Ling Zhang
개요
AVI(Agentic Video Intelligence)는 시각적 인식뿐만 아니라 복잡한 추론을 필요로 하는 비디오 이해를 위한 프레임워크입니다. 인간의 비디오 이해 방식을 모방하여, Retrieve-Perceive-Review의 3단계 추론 프로세스, 엔티티 그래프를 통해 구성된 구조화된 비디오 지식 베이스, 그리고 추론 LLM과 경량 CV 모델 및 VLM을 결합한 오픈 소스 모델 앙상블을 사용합니다. AVI는 독점 API나 강화 학습 훈련에 의존하지 않으면서 경쟁력 있는 성능과 우수한 해석 가능성을 제공합니다.
시사점, 한계점
•
시사점:
◦
인간의 사고 과정을 모방한 3단계 추론 프로세스를 통해 비디오 이해 능력을 향상시킴.
◦
오픈 소스 모델 앙상블을 활용하여 독점 API나 강화 학습 훈련의 의존성을 줄임.
◦
LVBench, VideoMME-Long, LongVideoBench, Charades-STA 등 다양한 벤치마크에서 경쟁력 있는 성능을 보임.