[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Código latente discreto composicional para modelos de difusión productivos de alta fidelidad

Created by
  • Haebom

Autor

Samuel Lavoie, Michael Noukhovitch, Aaron Courville

Describir

Este artículo argumenta que el éxito de los modelos de difusión se debe principalmente al condicionamiento de entrada. Por consiguiente, investigamos las representaciones utilizadas para condicionar los modelos de difusión, considerando que una representación ideal debería mejorar la fidelidad de la muestra, ser fácil de generar y configurable para permitir la generación de muestras fuera de entrenamiento. Introducimos códigos latentes discretos (DLC), derivados de incrustaciones compuestas simples entrenadas con objetivos de aprendizaje autosupervisados. A diferencia de las incrustaciones de imágenes continuas estándar, los DLC son secuencias de tokens discretas. Son fáciles de generar y su configurabilidad permite muestrear nuevas imágenes más allá de la distribución de entrenamiento. Los modelos de difusión entrenados con DLC logran una mayor fidelidad de generación, estableciendo un nuevo estado del arte en la generación incondicional de imágenes en ImageNet. También demostramos que la construcción de DLC permite a los generadores de imágenes generar muestras fuera de distribución que combinan consistentemente el significado de las imágenes de diversas maneras. Finalmente, demostramos cómo los DLC permiten la generación de texto a imagen aprovechando grandes modelos de lenguaje preentrenados. Ajustamos eficientemente los modelos de lenguaje de difusión de texto para generar DLC que generen nuevas muestras fuera de la distribución de entrenamiento del generador de imágenes.

Takeaways, Limitations

Takeaways:
Utilizando códigos latentes discretos (DLC), mejoramos la fidelidad generativa de los modelos de difusión y logramos un nuevo estado del arte en ImageNet.
Demostramos que la componibilidad de DLC permite la generación de nuevas imágenes más allá de la distribución de entrenamiento y la combinación de imágenes con diferentes significados.
La combinación de modelos de lenguaje previamente entrenados a gran escala con DLC permite una generación eficiente de texto a imagen.
Limitations:
El rendimiento de DLC puede limitarse a un conjunto de datos específico (ImageNet). Es necesario evaluar el rendimiento de generalización en otros conjuntos de datos.
Se necesita más investigación sobre el costo computacional y la eficiencia del proceso de generación de DLC.
Se necesita un análisis más profundo de los límites y restricciones de la configurabilidad del DLC.
👍