본 논문은 인공 일반 지능(AGI) 연구에서 현실 세계를 이해하고 복제하는 과제에 대한 다중 모달 생성 모델에 대한 통합적 고찰을 제공합니다. 기존의 월드 모델과 같은 접근 방식은 물리적 세계를 지배하는 기본 원리를 포착하는 데 중점을 두지만, 2D 이미지, 비디오, 3D, 4D 표현 등 서로 다른 모달을 독립적인 영역으로 취급하고 상호 의존성을 간과하는 경향이 있습니다. 본 논문은 2D 생성(외관)에서 시작하여 비디오(외관+동역학), 3D 생성(외관+기하학), 그리고 모든 차원을 통합하는 4D 생성으로 이어지는 실제 세계 시뮬레이션에서 데이터 차원의 진행 과정을 조사하는 다중 모달 생성 모델에 대한 통합적 검토를 제시합니다. 데이터셋, 평가 지표, 미래 방향에 대한 포괄적인 검토를 제공하여 향후 연구를 위한 지침을 제시하고, 신규 연구자들에게 통찰력을 제공합니다.