본 논문은 여러 비디오를 동시에 이해하고 비교해야 하는 Cross-Video Reasoning (CVR) 능력을 평가하기 위한 벤치마크인 CrossVid를 소개합니다. 기존의 단일 비디오 분석에 초점을 맞춘 벤치마크의 한계를 극복하고, 다양한 실제 CVR 시나리오에서 multimodal large language models (MLLMs)의 공간-시간적 추론 능력을 종합적으로 평가하는 것을 목표로 합니다. CrossVid는 4개의 상위 차원과 10개의 특정 작업으로 구성된 계층적 작업을 포함하며, 5,331개의 비디오와 9,015개의 질문-응답 쌍(단일 선택, 다중 선택, 개방형 질문 형식)을 제공합니다. 다양한 MLLMs에 대한 실험 결과, Gemini-2.5-Pro가 50.4%의 평균 정확도로 최고 성능을 보였으며, 현재 MLLMs이 여러 비디오에서 분산된 정보를 통합하거나 비교하는 데 어려움을 겪는다는 것을 보여주었습니다.