본 논문은 시각적으로 매력적인 클립 생성에서 상호 작용을 지원하고 물리적 타당성을 유지하는 가상 환경 구축으로 변화하는 비디오 생성의 흐름을 조명한다. 이러한 발전은 시각적 생성기뿐만 아니라 실제 또는 가상 세계의 물리적 역학, 에이전트-환경 상호 작용 및 작업 계획을 시뮬레이션하는 암시적 세계 모델로 기능하는 비디오 기반 모델의 출현을 제시한다. 본 논문은 이러한 진화를 체계적으로 개괄하며, 현대 비디오 기반 모델을 암시적 세계 모델과 비디오 렌더러의 조합으로 개념화한다. 세계 모델은 물리 법칙, 상호 작용 역학 및 에이전트 행동을 포함하여 세계에 대한 구조화된 지식을 인코딩하며, 일관된 시각적 추론, 장기적인 시간적 일관성 및 목표 지향적 계획을 가능하게 하는 잠재 시뮬레이션 엔진 역할을 한다. 비디오 렌더러는 이 잠재 시뮬레이션을 현실적인 시각적 관찰로 변환하여, 시뮬레이션된 세계의 "창"으로서 비디오를 효과적으로 생성한다. 본 논문은 핵심 기능이 단계별로 발전하여 본질적인 물리적 타당성, 실시간 다중 모드 상호 작용 및 여러 시공간 규모에 걸친 계획 기능을 구현하는 비디오 생성 모델을 기반으로 구축된 세계 모델로 절정에 달하는 4세대를 통해 비디오 생성의 발전을 추적한다. 각 세대별로 핵심 특징을 정의하고 대표적인 연구를 강조하며 로봇 공학, 자율 주행 및 인터랙티브 게임과 같은 응용 분야를 검토한다. 마지막으로, 에이전트 지능이 이러한 시스템을 형성하고 평가하는 데 미치는 영향을 포함하여 차세대 세계 모델에 대한 열린 과제 및 설계 원칙을 논의한다.