Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

CrossVid: A Comprehensive Benchmark for Evaluating Cross-Video Reasoning in Multimodal Large Language Models

Created by
  • Haebom
Category
Empty

저자

Jingyao Li, Jingyun Wang, Molin Tan, Haochen Wang, Cilin Yan, Likun Shi, Jiayin Cai, Xiaolong Jiang, Yao Hu

개요

본 논문은 여러 비디오를 동시에 이해하고 비교해야 하는 Cross-Video Reasoning (CVR) 능력을 평가하기 위한 벤치마크인 CrossVid를 소개합니다. 기존의 단일 비디오 분석에 초점을 맞춘 벤치마크의 한계를 극복하고, 다양한 실제 CVR 시나리오에서 multimodal large language models (MLLMs)의 공간-시간적 추론 능력을 종합적으로 평가하는 것을 목표로 합니다. CrossVid는 4개의 상위 차원과 10개의 특정 작업으로 구성된 계층적 작업을 포함하며, 5,331개의 비디오와 9,015개의 질문-응답 쌍(단일 선택, 다중 선택, 개방형 질문 형식)을 제공합니다. 다양한 MLLMs에 대한 실험 결과, Gemini-2.5-Pro가 50.4%의 평균 정확도로 최고 성능을 보였으며, 현재 MLLMs이 여러 비디오에서 분산된 정보를 통합하거나 비교하는 데 어려움을 겪는다는 것을 보여주었습니다.

시사점, 한계점

시사점:
MLLMs의 CVR 능력을 포괄적으로 평가하는 최초의 벤치마크를 제공합니다.
다양하고 복잡한 실제 비디오 이해 시나리오를 반영하는 계층적 작업 설계를 통해 MLLMs의 강점과 약점을 파악할 수 있도록 합니다.
실험 결과를 통해 현재 MLLMs이 여러 비디오 간의 정보를 통합하고 비교하는 데 어려움을 겪는다는 것을 밝혀, 향후 연구 방향을 제시합니다.
한계점:
벤치마크에 사용된 데이터셋과 질문-응답 쌍의 양이 제한적일 수 있습니다.
현재 연구된 MLLMs의 성능만을 기준으로 하므로, 새로운 모델의 등장에 따라 재평가가 필요합니다.
제안된 벤치마크가 실제 CVR 문제를 얼마나 정확하게 반영하는지에 대한 추가적인 검증이 필요합니다.
👍