본 논문은 AI가 생성한 콘텐츠(AIGC) 비디오에 대한 대규모 언어 모델(MLLM)의 이해 능력을 평가하기 위한 새로운 벤치마크인 VF-Eval을 제안합니다. VF-Eval은 일관성 검증, 오류 인식, 오류 유형 탐지, 추론 평가의 네 가지 과제를 포함하며, 13개의 최첨단 MLLM을 평가한 결과 GPT-4.1을 포함한 모든 모델이 모든 과제에서 일관되게 좋은 성능을 보이지 못함을 발견했습니다. 또한, VF-Eval을 활용하여 MLLM과 인간 피드백을 정렬함으로써 비디오 생성을 개선할 수 있음을 보여주는 RePrompt 실험을 진행했습니다.