Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

De editor a estimador de geometría densa

Created by
  • Haebom

Autor

JiYuan Wang, Chunyu Lin, Lei Sun, Rongying Liu, Lang Nie, Mingxing Li, Kang Liao, Xiangxiang Chu, Yao Zhao

Describir

Basándonos en investigaciones previas sobre el uso de información visual previa en modelos generativos de texto a imagen (T2I) preentrenados para predicción densa, este artículo plantea la hipótesis de que los modelos de edición de imágenes pueden servir como una base más adecuada para el ajuste fino de la estimación de geometría densa que los modelos generativos T2I. Para verificar esto, analizamos sistemáticamente los comportamientos de ajuste fino de los modelos generativos y de edición, demostrando que el modelo de edición, con su información estructural previa única, logra una convergencia más estable y un mayor rendimiento. Con base en estos hallazgos, proponemos FE2E , un nuevo marco que aplica modelos de edición avanzados basados ​​en la arquitectura del Transformador de Difusión (DiT) a la predicción de geometría densa . FE2E reconstruye la pérdida de coincidencia de flujo original del modelo de edición como un objetivo de entrenamiento de "velocidad constante", resuelve conflictos de precisión mediante cuantificación logarítmica y aprovecha el mecanismo de atención global de DiT para estimar simultáneamente la profundidad y las normales en una sola pasada. Logramos mejoras de rendimiento notables para la estimación normal y de profundidad monocular de disparo cero en múltiples conjuntos de datos sin aumento masivo de datos, demostrando notablemente una mejora del rendimiento de más del 35 % en el conjunto de datos ETH3D y superando a la serie DepthAnything entrenada con 100 veces más datos.

Takeaways, Limitations

Takeaways:
Demostramos experimentalmente que los modelos de edición de imágenes son una base más adecuada para tareas de predicción densa, como la estimación de geometría densa.
Presentamos un marco FE2E que mejora significativamente la profundidad monocular de disparo cero y el rendimiento de estimación normal mediante el uso efectivo de un modelo de edición basado en el Transformador de Difusión.
Demuestra la posibilidad de lograr un rendimiento excelente incluso sin grandes cantidades de datos.
Se presenta un método eficiente para la estimación simultánea de profundidad y normal en una sola pasada.
Limitations:
Las mejoras de rendimiento de FE2E pueden estar limitadas a conjuntos de datos específicos.
La verificación del rendimiento de generalización es necesaria para otros tipos de tareas de predicción densa.
Dependencia de la arquitectura del Transformador de Difusión. Es necesario revisar la escalabilidad a otras arquitecturas.
👍