본 논문은 비디오 모델이 비디오 생성을 통해 추론할 수 있는지 탐구하며, 이를 평가하기 위한 VR-Bench라는 종합적인 벤치마크를 소개한다. VR-Bench는 공간 계획 및 다단계 추론을 요구하는 미로 해결 과제를 기반으로 하며, 다양한 시각적 스타일의 7,920개의 절차적으로 생성된 비디오를 포함한다. 연구 결과, SFT (Supervised Fine-Tuning)가 비디오 모델의 추론 능력을 효율적으로 이끌어낼 수 있으며, 비디오 모델은 공간 인식 측면에서 뛰어난 성능을 보였다. 또한, 추론 과정에서 다양한 샘플링을 적용하면 신뢰도가 향상되는 것을 발견했다.