본 논문은 인공 일반 지능(AGI) 연구에서 현실 세계를 이해하고 복제하는 과제에 대한 통합적인 고찰을 제공한다. 기존의 세계 모델 접근 방식들은 2D 이미지, 비디오, 3D, 4D 등 다양한 모달리티를 독립적으로 다루는 한계를 지닌다. 이 논문은 2D 생성(외관)에서 비디오(외관+역동성), 3D 생성(외관+기하학), 그리고 모든 차원을 통합하는 4D 생성으로 이어지는 다모달 생성 모델에 대한 체계적인 조사를 제시한다. 2D, 비디오, 3D, 4D 생성 연구를 단일 프레임워크 내에서 통합적으로 다룬 최초의 시도이며, 데이터셋, 평가 지표, 미래 방향에 대한 포괄적인 검토와 함께 새로운 연구자들을 위한 통찰력을 제공한다.