Cet article propose une nouvelle approche pour la reconstruction de maillages 3D à partir d'images multi-vues. Inspirée de modèles de reconstruction à grande échelle tels que LRM, elle utilise un générateur triplan basé sur un transformateur et un modèle Neural Radiance Field (NeRF) entraîné sur des images multi-vues. Nous analysons et améliorons les faiblesses des architectures LRM existantes afin d'optimiser les représentations d'images multi-vues et de permettre un apprentissage efficace. De plus, nous extrayons les maillages des champs NeRF de manière différentiable et affinons le modèle NeRF grâce au rendu de maillage afin d'améliorer la reconstruction géométrique et de permettre une supervision en pleine résolution. Bien que notre approche atteigne des performances de pointe, avec un PSNR de 28,67 sur le jeu de données Google Scanned Objects (GSO), elle peine à reconstruire des textures complexes (par exemple, du texte, des portraits). Pour y remédier, nous introduisons une procédure d'amélioration de texture légère et spécifique à chaque instance, qui peaufine la représentation triplan et le modèle d'estimation des couleurs NeRF en seulement 4 secondes, améliorant le PSNR à 29,79 et reconstruisant avec précision des textures complexes. De plus, notre approche permet diverses applications en aval, telles que la génération 3D à partir de texte ou d'images.