Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Adaptador Att: un adaptador de difusión T2I multiatributos, robusto y preciso, específico de dominio mediante un autocodificador variacional condicional

Created by
  • Haebom

Autor

Wonwoong Cho, Yan-Ying Chen, Matthew Klenk, David I. Inouye, Yanxia Zhang

Describir

En este artículo, proponemos el Adaptador de Atributos (Att), un novedoso método para controlar con precisión múltiples atributos continuos (p. ej., grado de apertura ocular, anchura del vehículo) simultáneamente en un modelo de difusión de texto a imagen preentrenado. El Adaptador Att aprende un único adaptador de control a partir de un conjunto de imágenes de muestra no pareadas y utiliza un módulo de atención cruzada desacoplado para armonizar múltiples atributos de dominio y condiciones de texto. Para mitigar el sobreajuste, introducimos adicionalmente un Autocodificador Variacional Condicional (CVAE) que refleja diversas características del entorno visual. Los resultados experimentales muestran que el Adaptador Att supera a los métodos existentes basados en LoRA, demostrando un rango de control más amplio y un mejor rendimiento en la separación de atributos. Además, puede entrenarse sin datos sintéticos pareados y presenta una excelente escalabilidad para múltiples atributos.

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para el control preciso de atributos múltiples continuos en modelos de difusión preentrenados.
Se puede entrenar utilizando datos no apareados y es altamente escalable.
Muestra un mejor rendimiento que los métodos basados en LoRA y StyleGAN.
Proporciona un amplio rango de control y un rendimiento mejorado en la separación de atributos.
Limitations:
El __T97512_____ presentado no se menciona explícitamente en el artículo. Debería revelarse mediante experimentos o análisis adicionales. Por ejemplo, el rendimiento de generalización para tipos específicos de propiedades o conjuntos de datos, el coste computacional, etc., podrían ser áreas que requieran mayor investigación.
👍