Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

GCAgent: Long-Video Understanding via Schematic and Narrative Episodic Memory

Created by
  • Haebom
Category
Empty

저자

Jeong Hun Yeo, Sangyun Chung, Sungjune Park, Dae Hoe Kim, Jinyoung Moon, Yong Man Ro

GCAgent: Global-Context-Aware Agent for Long-Video Understanding

개요

GCAgent는 긴 영상 이해를 위한 새로운 Global-Context-Aware Agent 프레임워크입니다. 토큰 제한과 장기적인 시간적 의존성 캡처의 어려움으로 인해 멀티모달 대형 언어 모델(MLLM)에서 발생하는 문제점을 해결합니다. 핵심 혁신은 사건과 인과 관계 및 시간적 관계를 간결하게 모델링하는 Schematic and Narrative Episodic Memory입니다. Multi-stage Perception-Action-Reflection 주기로 작동하며, Memory Manager를 사용하여 관련 에피소드 컨텍스트를 검색하여 컨텍스트 인식 추론을 수행합니다. Video-MME Long split에서 강력한 MLLM baseline 대비 최대 23.5% 정확도 향상을 보였으며, 7B 규모 MLLM 중 최고 성능을 기록했습니다.

시사점, 한계점

장기적인 의존성 문제를 해결하기 위해 사건의 구조화된 메모리를 활용.
Video-MME 벤치마크에서 기존 방법들을 능가하는 SOTA 성능 달성.
7B 규모 MLLM에서 높은 정확도 기록.
GCAgent의 성능은 모델 규모에 따라 확장될 가능성이 있음.
더 다양한 유형의 비디오 데이터셋에 대한 평가가 필요함.
Agent 기반의 프레임워크 복잡성으로 인해 계산 비용이 높을 수 있음.
👍