ReWind는 장시간 비디오 이해를 위한 효율적인 메모리 기반 Vision-Language Model(VLM)입니다. 두 단계 프레임워크로 구성되어, 첫 번째 단계에서는 새로운 read-perceive-write 사이클을 사용하는 동적 학습 가능 메모리 모듈을 통해 비디오가 진행됨에 따라 지시 사항과 관련된 시각 정보를 저장하고 업데이트합니다. 메모리 내용과 입력 스트림 간의 학습 가능한 쿼리와 크로스 어텐션을 활용하여 토큰 수에 선형적으로 확장되는 낮은 메모리 요구 사항을 보장합니다. 두 번째 단계에서는 메모리 내용에 따라 안내되는 적응형 프레임 선택 메커니즘을 통해 지시 사항과 관련된 주요 순간을 식별하고, 선택된 고해상도 프레임을 메모리 내용과 결합하여 LLM에 입력하여 최종 답변을 생성합니다. MovieChat-1K VQA 데이터셋과 Charades-STA에서 기존 방법보다 우수한 성능을 보이며, 각각 +13% 점수 향상, +12% 정확도 향상, +8% mIoU 증가를 달성했습니다.