SMART: Shot-Aware Multimodal Video Moment Retrieval with Audio-Enhanced MLLM
Created by
Haebom
Category
Empty
저자
An Yu, Weiheng Lu, Jian Li, Zhenfei Zhang, Yunhang Shen, Felix X. -F. Ye, Ming-Ching Chang
개요
자연어 쿼리를 기반으로 비디오 내 특정 시간적 세그먼트를 찾는 비디오 모멘트 검색 작업에 대한 연구. 기존 방법들의 한계를 극복하기 위해, 오디오 신호를 통합하고 샷 레벨 시간 구조를 활용하는 MLLM 기반 프레임워크인 SMART를 제안. SMART는 오디오-시각적 특징을 결합하여 멀티모달 표현을 풍부하게 하고, 샷 단위 토큰 압축을 적용하여 중복성을 줄이면서 세밀한 시간적 세부 정보를 보존. Charades-STA 및 QVHighlights 데이터셋에서 SOTA 성능을 달성.