Este artículo propone un enfoque novedoso para la reconstrucción de mallas 3D a partir de imágenes multivista. Inspirado en modelos de reconstrucción a gran escala como LRM, utiliza un generador triplano basado en transformadores y un modelo de Campo de Radiancia Neural (NeRF) entrenado con imágenes multivista. Analizamos y mejoramos las deficiencias de las arquitecturas LRM existentes para optimizar las representaciones de imágenes multivista y permitir un entrenamiento computacionalmente eficiente. Además, extraemos mallas de campos NeRF de forma diferenciable y afinamos el modelo NeRF mediante renderizado de malla para mejorar la reconstrucción geométrica y permitir la supervisión a plena resolución de imagen. Si bien nuestro enfoque alcanza un rendimiento de vanguardia, con un PSNR de 28,67 en el conjunto de datos Google Scanned Objects (GSO), presenta dificultades para reconstruir texturas complejas (p. ej., texto y retratos). Para solucionar esto, introducimos un procedimiento ligero de mejora de texturas específico para cada instancia que afina la representación triplanar y el modelo de estimación de color NeRF en tan solo 4 segundos, mejorando la PSNR a 29,79 y reconstruyendo con precisión texturas complejas. Además, nuestro enfoque permite diversas aplicaciones posteriores, como la generación 3D a partir de texto o imágenes.