최근 멀티 모달 대규모 언어 모델(MLLM)이 다양한 비디오 이해 작업에서 상당한 성능을 보였다. 그러나 조작된 비디오 콘텐츠에 직면했을 때의 견고성은 아직 탐구되지 않았다. 본 논문에서는 동적 OOD(out-of-distribution) 반사실 비디오 테스트 세트에서 MLLM을 평가하기 위한 최초의 벤치마크인 Ro-Bench를 소개한다. Ro-Bench는 스타일, 객체, 배경 및 이들의 구성을 편집하여 고품질, 다양하고 시간적으로 관련된 비디오 데이터를 통합한다. 8개의 최신 비디오 MLLM을 평가한 결과, 현재 모델은 반사실 비디오 콘텐츠에 노출될 때 Ro-Bench에서 상당한 성능 저하를 보였다. 또한, 반사실 데이터로 MLLM을 미세 조정하면 견고성이 향상되어 Ro-Bench에서 21.73%의 성능 향상과 MVBench 데이터 세트의 20개 작업에서 12.78%의 개선을 달성했다. 이러한 결과는 MLLM의 비디오 이해 능력을 향상시키는 데 있어 반사실 데이터의 효과를 강조한다. 코드와 데이터는 곧 공개될 예정이다.