[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

CSD-VAR: Descomposición de estilo de contenido en modelos autorregresivos visuales

Created by
  • Haebom

Autor

Quang-Binh Nguyen, Minh Luu, Quang Nguyen, Anh Tran, Khoi Nguyen

Describir

Este artículo aborda el problema de la descomposición del estilo de contenido (CSD), que separa el contenido y el estilo de una sola imagen. A diferencia de los métodos de personalización basados en modelos de difusión existentes, en este artículo proponemos un método novedoso, CSD-VAR, que realiza CSD utilizando modelado autorregresivo visual (VAR). CSD-VAR introduce tres innovaciones clave para mejorar la separación de contenido y estilo aprovechando el proceso de generación dependiente del tamaño. Primero, usamos una estrategia de optimización cruzada con conocimiento del tamaño para alinear las representaciones de contenido y estilo a sus respectivos tamaños. Segundo, mitigamos la fuga de contenido en las representaciones de estilo usando un método de corrección basado en SVD. Tercero, mejoramos la preservación de la identidad del contenido usando una memoria clave-valor (KV) aumentada. Además, presentamos un nuevo conjunto de datos de referencia, CSD-100, para tareas de CSD. Los resultados experimentales muestran que CSD-VAR logra una mejor preservación del contenido y fidelidad del estilo que los métodos existentes.

Takeaways, Limitations

Takeaways:
Presentamos la posibilidad de realizar CSD utilizando VAR y demostramos un rendimiento superior a los métodos existentes basados en modelos de difusión.
Propone técnicas novedosas que incluyen optimización cruzada teniendo en cuenta el tamaño, modificación basada en SVD y memoria KV aumentada.
Proporcionamos un nuevo conjunto de datos de referencia, CSD-100, para tareas de CSD.
Limitations:
Es necesaria una revisión más profunda del tamaño y la diversidad del conjunto de datos CSD-100.
Se necesitan experimentos adicionales para evaluar el rendimiento de generalización del método propuesto.
Necesidad de evaluar el rendimiento en diferentes tipos de imágenes o estilos.
👍