본 논문은 제로샷 추론 능력을 갖춘 비디오 생성 모델 개발의 일환으로, 비디오 모델의 과학적 추론 능력을 평가하기 위한 새로운 벤치마크인 VideoScience-Bench를 소개합니다. VideoScience-Bench는 물리학 및 화학 분야의 14개 주제와 103개 개념을 아우르는 200개의 프롬프트를 포함하며, 비디오 모델이 복합적인 과학적 시나리오를 이해하고 추론하여 올바른 현상을 생성할 수 있는지 평가합니다. T2V 및 I2V 설정에서 7개의 최첨단 비디오 모델에 대한 평가를 수행하고, VLM-as-a-Judge를 사용하여 인간 평가와의 높은 상관관계를 확인했습니다.