Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

VidComposition: Can MLLMs Analyze Compositions in Compiled Videos?

Created by
  • Haebom
Category
Empty

저자

Yolo Y. Tang, Junjia Guo, Hang Hua, Susan Liang, Mingqian Feng, Xinyang Li, Rui Mao, Chao Huang, Jing Bi, Zeliang Zhang, Pooyan Fazli, Chenliang Xu

VidComposition: 비디오 구성 이해를 위한 새로운 벤치마크

개요

다중 모달 대규모 언어 모델(MLLM)의 발전은 비디오 콘텐츠 분석 능력을 향상시켰지만, 기존 MLLM 평가 벤치마크는 추상적인 비디오 이해에 초점을 맞추고 있다. 본 논문은 MLLM의 비디오 구성 이해 능력을 평가하기 위해 특별히 설계된 새로운 벤치마크인 VidComposition을 소개한다. VidComposition은 신중하게 구성된 컴파일된 비디오와 시네마틱 수준의 주석을 사용하여 카메라 움직임, 앵글, 숏 사이즈, 내러티브 구조, 캐릭터의 행동과 감정 등 다양한 구성 요소를 포함하는 1706개의 객관식 질문을 가진 982개의 비디오로 구성되어 있다. 33개의 오픈 소스 및 독점 MLLM에 대한 포괄적인 평가는 인간과 모델의 능력 사이에 상당한 성능 격차를 보여주었다.

시사점, 한계점

시사점:
MLLM의 복잡한 컴파일된 비디오 구성 이해 능력에 대한 새로운 평가 기준을 제시.
현재 MLLM의 한계를 강조하고 개선 영역을 제시.
비디오 구성 이해 능력을 향상시키기 위한 새로운 연구 방향 제시.
한계점:
제한된 수의 비디오 및 질문으로 구성되어, 다양한 비디오 스타일과 구성 요소를 모두 포괄하지 못할 수 있음.
평가 결과가 특정 MLLM 모델에 의존적일 수 있으며, 일반화가 필요함.
벤치마크가 비디오 구성 요소의 특정 측면에만 초점을 맞추고 있어, 다른 측면의 이해 능력은 평가하지 못함.
👍