다중 모달 대규모 언어 모델(MLLM)의 출현으로 비디오 가짜 뉴스 탐지(VFND) 연구가 발전했지만, 기존 벤치마크는 최종 결정의 정확성에만 초점을 맞춰 세부적인 평가가 부족했다. 이에 따라 본 연구는 VFND 작업 정의를 위한 기반을 제공하는 MVFNDB(Multi-modal Video Fake News Detection Benchmark)를 소개한다. 이 벤치마크는 10개의 과제로 구성되어 있으며, MLLM의 탐지 과정에서 인식, 이해, 추론 능력을 평가하기 위해 9730개의 사람 주석 비디오 관련 질문을 포함한다. 또한, 제작자가 추가한 콘텐츠와 촬영 원본 영상을 모두 활용하는 MVFND-CoT 프레임워크를 제안하여 여러 특징을 결합했을 때의 영향을 검증한다. 마지막으로, 비디오 처리 전략과 비디오 특징 및 모델 능력 간의 정렬 등 정확도에 영향을 미치는 요인에 대한 심층 분석을 수행한다.