Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GTR : Amélioration des grands modèles de reconstruction 3D grâce au raffinement de la géométrie et des textures

Created by
  • Haebom

Auteur

Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee

Contour

Cet article propose une nouvelle approche pour la reconstruction de maillages 3D à partir d'images multi-vues. Inspirée de modèles de reconstruction à grande échelle tels que LRM, elle utilise un générateur triplan basé sur un transformateur et un modèle Neural Radiance Field (NeRF) entraîné sur des images multi-vues. Nous analysons et améliorons les faiblesses des architectures LRM existantes afin d'optimiser les représentations d'images multi-vues et de permettre un apprentissage efficace. De plus, nous extrayons les maillages des champs NeRF de manière différentiable et affinons le modèle NeRF grâce au rendu de maillage afin d'améliorer la reconstruction géométrique et de permettre une supervision en pleine résolution. Bien que notre approche atteigne des performances de pointe, avec un PSNR de 28,67 sur le jeu de données Google Scanned Objects (GSO), elle peine à reconstruire des textures complexes (par exemple, du texte, des portraits). Pour y remédier, nous introduisons une procédure d'amélioration de texture légère et spécifique à chaque instance, qui peaufine la représentation triplan et le modèle d'estimation des couleurs NeRF en seulement 4 secondes, améliorant le PSNR à 29,79 et reconstruisant avec précision des textures complexes. De plus, notre approche permet diverses applications en aval, telles que la génération 3D à partir de texte ou d'images.

Takeaways, Limitations

Takeaways:
Atteindre des performances de pointe dans la reconstruction de maillage 3D basée sur des images multi-vues (PSNR 29,79).
Amélioration de l'efficacité de calcul grâce aux améliorations apportées à l'architecture LRM.
Reconstruction géométrique améliorée grâce à l'extraction de maillage différentiable et au raffinement NeRF.
Reconstruction précise de textures complexes grâce à une procédure de raffinement de texture légère et spécifique à l'instance.
Offre une variété de possibilités d'applications de suivi, telles que la création 3D à partir de texte ou d'images.
Limitations:
Il a encore des difficultés à reconstituer parfaitement des textures complexes (textes, portraits, etc.).
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
👍