대규모 언어 모델(LLM)은 언어 영역에서 사전 훈련을 통해 적은 감독으로 새로운 문제에 빠르게 적응할 수 있음을 보여주었습니다. 그러나 이러한 성공은 LLM을 포함한 모델이 구성 이해, 샘플 효율성 및 일반적인 문제 해결에 여전히 어려움을 겪고 있는 시각적 영역에서는 효과적으로 나타나지 않았습니다. 본 연구에서는 이 격차를 해소하기 위한 유망한 방향으로 비디오 확산 모델(VDM)을 조사합니다. 시공간 데이터에 대한 사전 훈련은 이러한 모델에 구조와 역학에 대한 강력한 귀납적 편향을 부여하며, 이는 광범위한 작업 적응성을 지원할 수 있다고 가정합니다. 이를 테스트하기 위해 사전 훈련된 LLM과 사전 훈련된 VDM 모두에 경량 어댑터를 장착하고 자연 모달리티에서 작업을 제시하는 제어된 평가를 설계했습니다. ARC-AGI, ConceptARC, 시각적 게임, 경로 계획 및 셀룰러 오토마타를 포함한 벤치마크에서 VDM은 언어 모델보다 높은 데이터 효율성을 보여줍니다. 종합적으로, 본 결과는 비디오 사전 훈련이 시각적 기반 모델을 향한 진전을 지원하는 귀납적 편향을 제공함을 나타냅니다.