본 논문은 멀티모달 대규모 언어 모델(MLLM)의 멀티 비디오 이해 능력을 평가하기 위한 최초의 포괄적인 벤치마크인 MVU-Eval을 소개합니다. MVU-Eval은 다양한 도메인의 4,959개 비디오에 걸쳐 1,824개의 질문-답변 쌍을 통해 8가지 핵심 역량을 평가하며, 이는 자율 시스템의 멀티 센서 합성 및 스포츠 분석과 같은 실제 응용 분야와 관련이 있습니다. 실험을 통해 최첨단 모델의 성능 격차와 한계를 드러내고, 향후 연구를 장려하기 위해 벤치마크를 공개할 예정입니다.