Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprendre les simulateurs 3D-gaussiens à partir de vidéos RVB

Created by
  • Haebom

Auteur

Mikel Zhobro, Andreas Ren et Geist, Georg Martius

Contour

Cet article propose un nouveau simulateur 3D basé sur l'apprentissage, 3DGSim. 3DGSim apprend directement les interactions physiques à partir de vidéos RVB multi-vues, permettant des simulations réalistes sans nécessiter d'informations privilégiées telles que la profondeur ou le suivi de particules. Il apprend une représentation latente d'une scène 3D à base de particules grâce à MVSplat, prédit la dynamique des particules grâce au transformateur de points, effectue une agrégation temporelle cohérente grâce au module de fusion temporelle et génère de nouveaux rendus de vue grâce à la projection gaussienne. En apprenant conjointement le rendu inverse et la prédiction dynamique, nous intégrons des propriétés physiques dans des caractéristiques latentes ponctuelles, capturant ainsi un large éventail de comportements physiques (du rigide à l'élastique, en passant par la dynamique de type tissu et les conditions aux limites) et d'effets d'éclairage réalistes, et généralisons ces résultats à des interactions multi-corps inédites et à de nouvelles manipulations de scènes.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode pour apprendre les interactions physiques directement à partir de vidéos RVB multi-vues sans informations privilégiées.
Capture d'une large gamme de comportements physiques, des corps rigides aux corps élastiques et semblables à du tissu, et des effets d'éclairage réalistes.
Performances de généralisation améliorées pour les interactions multi-corps invisibles et l'édition de nouvelles scènes.
Intégration de la reconstruction de scènes 3D, de la prédiction de la dynamique des particules et de la synthèse vidéo dans un cadre unique de bout en bout.
Limitations:
Absence d'analyse spécifique du coût de calcul du modèle proposé et de la taille des données de formation.
Limites des performances de généralisation pour divers phénomènes physiques et nécessité d'expériences supplémentaires
Une vérification supplémentaire de l’applicabilité et de la robustesse à des situations complexes du monde réel est nécessaire.
👍