VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?
Created by
Haebom
Category
Empty
저자
Yolo Y. Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu
VidComposition: 비디오 구성 이해를 위한 새로운 벤치마크
개요
다중 모달 대규모 언어 모델(MLLM)의 발전은 비디오 콘텐츠 분석 능력을 향상시켰지만, 기존 MLLM 평가 벤치마크는 추상적인 비디오 이해에 초점을 맞추고 있다. 본 논문은 MLLM의 비디오 구성 이해 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크인 VidComposition을 소개한다. VidComposition은 신중하게 구성된 컴파일된 비디오와 시네마틱 수준의 주석을 사용하여 카메라 움직임, 앵글, 숏 사이즈, 내러티브 구조, 캐릭터의 행동과 감정 등 다양한 구성 요소를 포함하는 1706개의 객관식 질문을 가진 982개의 비디오로 구성되어 있다. 33개의 오픈 소스 및 독점 MLLM에 대한 포괄적인 평가는 인간과 모델의 능력 사이에 상당한 성능 격차를 보여주었다.
시사점, 한계점
•
시사점:
◦
MLLM의 복잡한 컴파일된 비디오 구성 이해 능력에 대한 새로운 평가 기준을 제시.
◦
현재 MLLM의 한계를 강조하고 개선 영역을 제시.
◦
비디오 구성 이해 능력을 향상시키기 위한 새로운 연구 방향 제시.
•
한계점:
◦
제한된 수의 비디오 및 질문으로 구성되어, 다양한 비디오 스타일과 구성 요소를 모두 포괄하지 못할 수 있음.
◦
평가 결과가 특정 MLLM 모델에 의존적일 수 있으며, 일반화가 필요함.
◦
벤치마크가 비디오 구성 요소의 특정 측면에만 초점을 맞추고 있어, 다른 측면의 이해 능력은 평가하지 못함.