Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

ReWind: Understanding Long Videos with Instructed Learnable Memory

Created by
  • Haebom

저자

Anxhelo Diko, Tinghuai Wang, Wassim Swaileh, Shiyan Sun, Ioannis Patras

개요

ReWind는 장시간 비디오 이해를 위한 효율적인 메모리 기반 Vision-Language Model(VLM)입니다. 두 단계 프레임워크로 구성되어, 첫 번째 단계에서는 새로운 read-perceive-write 사이클을 사용하는 동적 학습 가능 메모리 모듈을 통해 비디오가 진행됨에 따라 지시 사항과 관련된 시각 정보를 저장하고 업데이트합니다. 메모리 내용과 입력 스트림 간의 학습 가능한 쿼리와 크로스 어텐션을 활용하여 토큰 수에 선형적으로 확장되는 낮은 메모리 요구 사항을 보장합니다. 두 번째 단계에서는 메모리 내용에 따라 안내되는 적응형 프레임 선택 메커니즘을 통해 지시 사항과 관련된 주요 순간을 식별하고, 선택된 고해상도 프레임을 메모리 내용과 결합하여 LLM에 입력하여 최종 답변을 생성합니다. MovieChat-1K VQA 데이터셋과 Charades-STA에서 기존 방법보다 우수한 성능을 보이며, 각각 +13% 점수 향상, +12% 정확도 향상, +8% mIoU 증가를 달성했습니다.

시사점, 한계점

시사점:
장시간 비디오 이해를 위한 효율적인 VLM 아키텍처 제시
read-perceive-write 메모리 모듈을 통한 효율적인 메모리 관리 및 정보 업데이트
적응형 프레임 선택 메커니즘을 통한 주요 순간 식별 및 고해상도 정보 활용
MovieChat-1K VQA 및 Charades-STA에서 SOTA 성능 달성
한계점:
제시된 메모리 모듈 및 프레임 선택 메커니즘의 일반화 성능에 대한 추가적인 연구 필요
다양한 종류의 장시간 비디오 데이터셋에 대한 성능 평가 필요
메모리 모듈의 복잡성 및 계산 비용에 대한 심층적인 분석 필요
👍