M-LLM Based Video Frame Selection for Efficient Video Understanding
Created by
Haebom
저자
Kai Hu, Feng Gao, Xiaohan Nie, Peng Zhou, Son Tran, Tal Neiman, Lingyun Wang, Mubarak Shah, Raffay Hamid, Bing Yin, Trishul Chilimbi
개요
본 논문은 장문 비디오에 대한 질문 응답에서 다중 모달 대규모 언어 모델(M-LLM)의 성능을 향상시키는 경량 M-LLM 기반 프레임 선택 방법을 제안합니다. 기존의 균일 샘플링 방식은 중요한 정보 손실을 야기할 수 있기에, 본 논문에서는 사용자 질의와 관련성이 높은 프레임을 선택적으로 추출하는 방법을 제시합니다. 이는 M-LLM을 이용한 공간적 신호(단일 프레임 중요도 점수)와 LLM을 이용한 시간적 신호(여러 프레임 선택, 모든 프레임 자막 사용)라는 두 가지 감독 신호를 통해 학습된 프레임 선택기를 사용합니다. 선택된 프레임은 고정된 다운스트림 비디오 M-LLM에 전달되어 시각적 추론 및 질문 응답을 수행합니다. 실험 결과, 제안된 방법은 다양한 비디오 질문 응답 벤치마크(ActivityNet, NExT-QA, EgoSchema, LongVideoBench)에서 다운스트림 비디오 LLM의 성능을 향상시키는 것으로 나타났습니다.