GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory
Created by
Haebom
Category
Empty
저자
Jeong Hun Yeo, Sangyun Chung, Sungjune Park, Dae Hoe Kim, Jinyoung Moon, Yong Man Ro
GCAgent: Global-Context-Aware Agent for Long-Video Understanding
개요
GCAgent는 긴 영상 이해를 위한 새로운 Global-Context-Aware Agent 프레임워크입니다. 토큰 제한과 장기적인 시간적 의존성 캡처의 어려움으로 인해 멀티모달 대형 언어 모델(MLLM)에서 발생하는 문제점을 해결합니다. 핵심 혁신은 사건과 인과 관계 및 시간적 관계를 간결하게 모델링하는 Schematic and Narrative Episodic Memory입니다. Multi-stage Perception-Action-Reflection 주기로 작동하며, Memory Manager를 사용하여 관련 에피소드 컨텍스트를 검색하여 컨텍스트 인식 추론을 수행합니다. Video-MME Long split에서 강력한 MLLM baseline 대비 최대 23.5% 정확도 향상을 보였으며, 7B 규모 MLLM 중 최고 성능을 기록했습니다.