Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

WorldMM: Dynamic Multimodal Memory Agent for Long Video Reasoning

Created by
  • Haebom
Category
Empty

저자

Woongyeong Yeo, Kangsan Kim, Jaehong Yoon, Sung Ju Hwang

개요

WorldMM은 장시간 비디오 이해의 어려움을 해결하기 위해 개발된 새로운 다중 모달 메모리 에이전트입니다. WorldMM은 텍스트 및 시각적 표현을 모두 포함하는 여러 보완적 메모리를 구축하고 검색합니다. 특히, 사건 정보를 다중 시간적 규모로 색인화하는 에피소드 메모리, 고수준 개념 지식을 지속적으로 업데이트하는 의미 메모리, 장면의 세부 정보를 보존하는 시각 메모리를 사용합니다. 쿼리에 따라 가장 관련성이 높은 메모리 소스를 선택하고 여러 시간적 세분성을 활용하는 적응형 검색 에이전트를 통해 작동합니다. WorldMM은 기존 장시간 비디오 질의응답 벤치마크에서 기존 최고 성능 모델보다 평균 8.4% 향상된 성능을 보여주었습니다.

시사점, 한계점

시사점:
장시간 비디오 이해 문제 해결을 위한 새로운 접근 방식 제시 (다중 모달 메모리 에이전트).
다양한 유형의 메모리 (에피소드, 의미, 시각)를 활용하여 풍부한 정보 획득.
적응형 검색 에이전트를 통해 쿼리에 맞는 메모리 선택 및 시간적 세분성 조절.
기존 방법 대비 뛰어난 성능 (평균 8.4% 향상).
한계점:
구체적인 구현 세부 사항 및 계산 비용에 대한 정보 부족.
모델의 일반화 능력에 대한 추가적인 검증 필요.
메모리 구성 및 검색 과정의 복잡성.
특정 유형의 비디오 콘텐츠에 대한 성능 편향 가능성.
👍