본 논문은 멀티모달 대규모 언어 모델(MLLM)의 멀티 비디오 이해 능력을 평가하기 위한 최초의 포괄적인 벤치마크인 MVU-Eval을 소개합니다. MVU-Eval은 다양한 도메인의 4,959개 비디오에서 파생된 1,824개의 질문-응답 쌍을 통해 8가지 핵심 역량을 평가하여, 자율 시스템의 멀티 센서 합성 및 스포츠 분석과 같은 실제 응용 분야에 맞춰져 있습니다. 최첨단 모델 평가를 통해 현재 MLLM의 멀티 비디오 이해 능력에 상당한 격차가 있음을 밝혀냈습니다.
시사점, 한계점
•
MVU-Eval을 통해 MLLM의 멀티 비디오 이해 능력을 평가하는 새로운 벤치마크를 제공합니다.