Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

UniCombine: Combinación multicondicional unificada con transformador de difusión

Created by
  • Haebom

Autor

Haoxuan Wang, Jinlong Peng, Qingdong He, Hao Yang, Ying Jin, Jiafu Wu, Xiaobin Hu, Yanjie Pan, Zhenye Gan, Mingmin Chi, Bo Peng, Yabiao Wang

Describir

En este artículo, presentamos un marco UniCombine que permite la generación consistente de imágenes mediante la combinación eficaz de diversas condiciones (indicaciones de texto, mapas espaciales, imágenes de referencia, etc.) con el objetivo de mejorar la controlabilidad de los modelos de difusión en el campo de la generación de imágenes. UniCombine se basa en DiT (Difusión con Transformación de Imagen) e introduce un novedoso mecanismo de Atención Condicional MMDiT y un módulo LoRA (Adaptación de Bajo Rango) aprendible, de modo que puede operar con o sin aprendizaje. Además, realizamos experimentos con un nuevo conjunto de datos, SubjectSpatial200K, que incluye diversas condiciones y demostramos que alcanza un rendimiento de vanguardia.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco, UniCombine, para controlar la generación de imágenes combinando eficazmente varias condiciones (texto, información espacial, imágenes, etc.)
Aumente la eficiencia con la implementación de UniCombine basada en LoRA que puede funcionar sin aprendizaje
Se lanza un nuevo conjunto de datos SubjectSpatial200K para la generación de imágenes de múltiples condiciones
Presentar resultados experimentales que muestren un rendimiento superior al de los métodos existentes.
Limitations:
El tamaño del conjunto de datos SubjectSpatial200K deberá ampliarse aún más en el futuro.
Se necesitan más investigaciones sobre los problemas de consistencia que pueden surgir al combinar diferentes condiciones.
Se necesitan más investigaciones sobre el rendimiento de generalización del marco propuesto a otros modelos de difusión u otros tipos de entradas condicionales.
👍