Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

DiffDecompose: Descomposición por capas de imágenes compuestas alfa mediante transformadores de difusión

Created by
  • Haebom

Autor

Zitong Wang, Hang Zhao, Qianyu Zhou, Xuequan Lu, Xiangtai Li, Yiren Song

Describir

Este artículo presenta un nuevo reto: la descomposición por capas de imágenes alfa-compuestas. Observamos que los métodos existentes de descomposición de imágenes tienen dificultades para abordar los artefactos de oclusión en capas semitransparentes o transparentes, y abordamos retos como las dependencias previas de máscara, las suposiciones de objetos estáticos y la insuficiencia de datos. Para lograrlo, presentamos AlphaBlend, un conjunto de datos a gran escala y de alta calidad para la descomposición de capas transparentes y semitransparentes, y presentamos DiffDecompose, un marco basado en transformadores de difusión. DiffDecompose aprende probabilidades posteriores para posibles descomposiciones de capas condicionadas a la imagen de entrada, las indicaciones semánticas y los tipos de fusión. En lugar de realizar una regresión directa de los mates alfa, realizamos una descomposición en contexto para predecir una o más capas sin supervisión específica de cada una, e introducimos la clonación de codificación de posición de capa para preservar las correspondencias a nivel de píxel entre capas. Validamos la eficacia de DiffDecompose mediante experimentos exhaustivos con el conjunto de datos AlphaBlend propuesto y el conjunto de datos LOGO, disponible públicamente.

Takeaways, Limitations

Takeaways:
Proporcionamos un nuevo conjunto de datos, AlphaBlend, para la descomposición capa por capa de imágenes compuestas alfa.
Presentamos un modelo DiffDecompose que maneja eficazmente el fenómeno de oclusión de capas translúcidas/transparentes.
El rendimiento se mejora mediante técnicas de descomposición en contexto y clonación de codificación de posición de capa.
Demuestra aplicabilidad a varias tareas del mundo real, como la eliminación de destellos translúcidos, la descomposición de células translúcidas y la descomposición de cristalería.
Limitations:
El código y el conjunto de datos actuales se harán públicos después de que se acepte el artículo.
Es posible que se requiera una validación adicional del rendimiento de generalización del modelo.
Se necesita una evaluación adicional del rendimiento para escenas complejas o diferentes tipos de oclusión.
👍