Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Simulation du monde réel : une étude unifiée des modèles génératifs multimodaux

Created by
  • Haebom

Auteur

Yuqi Hu, Longguang Wang, Xian Liu, Ling-Hao Chen, Yuwei Guo, Yukai Shi, Ce Liu, Anyi Rao, Zeyu Wang, Hui Xiong

Contour

Cet article propose une revue intégrée des modèles génératifs multimodaux pour la compréhension et la reproduction du monde réel dans la recherche en intelligence artificielle générale (IAG). Alors que les approches traditionnelles, telles que les modèles du monde, se concentrent sur la capture des principes fondamentaux régissant le monde physique, elles ont tendance à traiter les différentes modalités – images 2D, vidéos, représentations 3D et 4D – comme des domaines indépendants et à négliger leurs interdépendances. Cet article présente une revue intégrée des modèles génératifs multimodaux qui explorent la progression des dimensions des données dans les simulations du monde réel, en commençant par la génération 2D (apparence) puis en passant par la vidéo (apparence + dynamique), la génération 3D (apparence + géométrie) et enfin la génération 4D intégrant toutes les dimensions. En fournissant une revue complète des jeux de données, des indicateurs d'évaluation et des orientations futures, nous offrons des orientations pour les recherches futures et des perspectives aux nouveaux chercheurs.

Takeaways, Limitations

Takeaways:
La première tentative d'intégration systématique de la génération 2D, vidéo, 3D et 4D dans un cadre unique.
Fournir un cadre intégré pour faire progresser les modèles génératifs multimodaux et la recherche en simulation du monde réel.
Fournit un examen complet des ensembles de données, des mesures d’évaluation et des orientations de recherche futures.
Fournir de nouvelles perspectives sur la recherche en AGI.
Limitations:
Cette recherche en est encore à ses débuts et des recherches supplémentaires sont nécessaires pour déterminer les performances et l’applicabilité pratique du modèle génératif 4D.
Une analyse plus approfondie des interactions et des dépendances entre les différentes modalités est nécessaire.
Une validation supplémentaire de la généralité et de l’évolutivité du cadre proposé est nécessaire.
👍