VidComposition: Evaluating Video Composition Understanding of Multimodal Large Language Models
개요
본 논문은 MLLMs(Multimodal Large Language Models)의 비디오 구성 이해 능력을 평가하기 위해 설계된 새로운 벤치마크인 VidComposition을 소개합니다. VidComposition은 982개의 비디오와 1706개의 객관식 질문을 포함하며, 카메라 움직임, 각도, 샷 크기, 내러티브 구조, 캐릭터 행동 및 감정 등 다양한 구성적 측면을 다룹니다. 33개의 오픈 소스 및 상용 MLLM에 대한 광범위한 평가를 수행하여, 모델과 인간 능력 간의 상당한 성능 격차를 발견했습니다.