Sign In

Adaptive Keyframe Sampling for Long Video Understanding

Created by
  • Haebom
Category
Empty

저자

Xi Tang, Jihao Qiu, Lingxi Xie, Yunjie Tian, Jianbin Jiao, Qixiang Ye

개요

본 논문은 장문 비디오 이해를 위한 다중 모달 대규모 언어 모델(MLLM)의 한계점을 해결하는 새로운 알고리즘인 적응적 키프레임 샘플링(AKS)을 제안합니다. 기존의 비디오 기반 MLLM은 비디오 토큰의 양이 MLLM의 최대 용량을 초과하여 일부 토큰만 샘플링하는 방식을 사용, 중요 정보 손실로 인한 오류 발생 가능성이 높았습니다. AKS는 제한된 수의 비디오 토큰으로 유용한 정보를 극대화하는 키프레임 선택 모듈을 통해 이 문제를 해결합니다. 키프레임 선택은 키프레임과 프롬프트 간의 관련성과 비디오 전반에 대한 키프레임의 적용 범위를 고려하는 최적화 문제로 공식화되며, 본 논문에서는 최적 해를 근사하는 적응적 알고리즘을 제시합니다. 두 개의 장문 비디오 이해 벤치마크 실험을 통해 AKS가 정보가 풍부한 키프레임을 선택하여 비디오 질의응답 정확도를 향상시키는 것을 검증했습니다. 이 연구는 비디오 기반 MLLM에서 정보 사전 필터링의 중요성을 보여줍니다. 코드는 https://github.com/ncTimTang/AKS 에서 확인할 수 있습니다.

시사점, 한계점

시사점:
장문 비디오 이해를 위한 효과적인 키프레임 선택 알고리즘(AKS) 제시
비디오 기반 MLLM에서 정보 사전 필터링의 중요성 강조
기존 방식 대비 향상된 비디오 질의응답 정확도 달성
플러그 앤 플레이 방식의 키프레임 선택 모듈 제공
한계점:
제안된 알고리즘의 성능은 선택된 키프레임의 질에 크게 의존하며, 키프레임 선택 과정의 최적화가 완벽하지 않을 수 있음.
다양한 유형의 비디오 데이터에 대한 일반화 성능에 대한 추가적인 연구 필요.
특정 벤치마크에 대한 성능 검증만 제시되었으므로, 다른 데이터셋에 대한 확장성 검증이 필요함.
👍