Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GTR: Mejora de grandes modelos de reconstrucción 3D mediante el refinamiento de geometría y textura

Created by
  • Haebom

Autor

Peiye Zhuang, Songfang Han, Chaoyang Wang, Aliaksandr Siarohin, Jiaxu Zou, Michael Vasilkovsky, Vladislav Shakhrai, Sergey Korolev, Sergey Tulyakov, Hsin-Ying Lee

Describir

Este artículo propone un enfoque novedoso para la reconstrucción de mallas 3D a partir de imágenes multivista. Inspirado en modelos de reconstrucción a gran escala como LRM, utiliza un generador triplano basado en transformadores y un modelo de Campo de Radiancia Neural (NeRF) entrenado con imágenes multivista. Analizamos y mejoramos las deficiencias de las arquitecturas LRM existentes para optimizar las representaciones de imágenes multivista y permitir un entrenamiento computacionalmente eficiente. Además, extraemos mallas de campos NeRF de forma diferenciable y afinamos el modelo NeRF mediante renderizado de malla para mejorar la reconstrucción geométrica y permitir la supervisión a plena resolución de imagen. Si bien nuestro enfoque alcanza un rendimiento de vanguardia, con un PSNR de 28,67 en el conjunto de datos Google Scanned Objects (GSO), presenta dificultades para reconstruir texturas complejas (p. ej., texto y retratos). Para solucionar esto, introducimos un procedimiento ligero de mejora de texturas específico para cada instancia que afina la representación triplanar y el modelo de estimación de color NeRF en tan solo 4 segundos, mejorando la PSNR a 29,79 y reconstruyendo con precisión texturas complejas. Además, nuestro enfoque permite diversas aplicaciones posteriores, como la generación 3D a partir de texto o imágenes.

Takeaways, Limitations

Takeaways:
Lograr un rendimiento de última generación en la reconstrucción de malla 3D basada en imágenes de múltiples vistas (PSNR 29.79).
Eficiencia computacional mejorada mediante mejoras en la arquitectura LRM.
Reconstrucción geométrica mejorada mediante extracción de malla diferenciable y refinamiento NeRF.
Reconstrucción precisa de texturas complejas a través de un procedimiento de refinamiento de texturas liviano y específico para cada instancia.
Ofrece una variedad de posibilidades de aplicaciones de seguimiento, como la creación 3D a partir de texto o imágenes.
Limitations:
Todavía tiene dificultades para reconstruir perfectamente texturas complejas (texto, retratos, etc.).
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
👍