Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

SGDFuse: Difusión guiada por SAM para fusión de imágenes infrarrojas y visibles de alta fidelidad

Created by
  • Haebom

Autor

Xiaoyang Zhang, Zhen Hua, Yakun Ju, Wei Zhou, Jun Liu, Alex C. Kot

Describir

Este artículo propone SGDFuse, un modelo de difusión condicional que utiliza el Modelo Segment Anything (SAM), para abordar las deficiencias de los métodos existentes en la fusión de imágenes infrarrojas-visibles (IVIF), incluyendo la falta de una comprensión semántica profunda, la generación de artefactos y la pérdida de detalle. SGDFuse optimiza el proceso de fusión mediante un modelo de difusión condicional, aprovechando las máscaras semánticas de alta calidad generadas por el SAM como información previa explícita. El proceso, en dos pasos, implica primero realizar una fusión preliminar de características multimodales y luego reducir el ruido del modelo de difusión de grueso a fino, condicionado por las máscaras semánticas del SAM y la imagen fusionada preliminar. Esto garantiza la direccionalidad semántica y la alta fidelidad del resultado final. Los resultados experimentales demuestran que SGDFuse alcanza un rendimiento de vanguardia en términos de evaluaciones subjetivas y objetivas, así como su aplicabilidad a tareas posteriores. El código fuente está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Demostramos que SAM se puede utilizar para obtener resultados de fusión de imágenes infrarrojas y de luz visible semánticamente ricos y de alta calidad.
Resuelve eficazmente los problemas de generación de artefactos y pérdida de detalles en los métodos existentes.
Excelente aplicabilidad a tareas posteriores, alto potencial para aplicaciones prácticas.
Logrando un rendimiento de vanguardia.
Garantizar la reproducibilidad y extensibilidad mediante código fuente abierto.
Limitations:
Puede depender del rendimiento de SAM. La degradación del rendimiento de SAM puede afectar el rendimiento de SGDFuse.
Puede ser computacionalmente costoso. Al basarse en un modelo de difusión, el tiempo de procesamiento puede ser largo.
Es posible que SAM funcione mal en ciertos tipos de imágenes, por lo que existe la posibilidad de que el rendimiento de la fusión sea deficiente en estas imágenes.
👍