Cet article propose une revue intégrée des modèles génératifs multimodaux pour la compréhension et la reproduction du monde réel dans la recherche en intelligence artificielle générale (IAG). Alors que les approches traditionnelles, telles que les modèles du monde, se concentrent sur la capture des principes fondamentaux régissant le monde physique, elles ont tendance à traiter les différentes modalités – images 2D, vidéos, représentations 3D et 4D – comme des domaines indépendants et à négliger leurs interdépendances. Cet article présente une revue intégrée des modèles génératifs multimodaux qui explorent la progression des dimensions des données dans les simulations du monde réel, en commençant par la génération 2D (apparence) puis en passant par la vidéo (apparence + dynamique), la génération 3D (apparence + géométrie) et enfin la génération 4D intégrant toutes les dimensions. En fournissant une revue complète des jeux de données, des indicateurs d'évaluation et des orientations futures, nous offrons des orientations pour les recherches futures et des perspectives aux nouveaux chercheurs.