Adaptive Keyframe Sampling for Long Video Understanding
Created by
Haebom
Category
Empty
저자
Xi Tang, Jihao Qiu, Lingxi Xie, Yunjie Tian, Jianbin Jiao, Qixiang Ye
개요
본 논문은 장문 비디오 이해를 위한 다중 모달 대규모 언어 모델(MLLM)의 한계점을 해결하는 새로운 알고리즘인 적응적 키프레임 샘플링(AKS)을 제안합니다. 기존의 비디오 기반 MLLM은 비디오 토큰의 양이 MLLM의 최대 용량을 초과하여 일부 토큰만 샘플링하는 방식을 사용, 중요 정보 손실로 인한 오류 발생 가능성이 높았습니다. AKS는 제한된 수의 비디오 토큰으로 유용한 정보를 극대화하는 키프레임 선택 모듈을 통해 이 문제를 해결합니다. 키프레임 선택은 키프레임과 프롬프트 간의 관련성과 비디오 전반에 대한 키프레임의 적용 범위를 고려하는 최적화 문제로 공식화되며, 본 논문에서는 최적 해를 근사하는 적응적 알고리즘을 제시합니다. 두 개의 장문 비디오 이해 벤치마크 실험을 통해 AKS가 정보가 풍부한 키프레임을 선택하여 비디오 질의응답 정확도를 향상시키는 것을 검증했습니다. 이 연구는 비디오 기반 MLLM에서 정보 사전 필터링의 중요성을 보여줍니다. 코드는 https://github.com/ncTimTang/AKS 에서 확인할 수 있습니다.