Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

¿Qué impulsa la generalización compositiva en los modelos generativos visuales?

Created by
  • Haebom

Autor

Karim Farid, Rajat Sahay, Yumna Ali Alnaggar, Simon Schrodi, Volker Fischer, Cordelia Schmid, Thomas Brox

Describir

Este estudio investiga sistemáticamente los factores que mejoran la generalización constructiva en modelos generativos visuales. En concreto, investigamos experimentalmente diversas opciones de diseño que influyen positiva o negativamente en la generalización constructiva en modelos de generación de imágenes y vídeos. Nuestros hallazgos clave revelan que la discreción o la continuidad del objetivo de entrenamiento y el grado de información condicional sobre los conceptos de los componentes influyen significativamente en la generalización constructiva. Además, sugerimos que el rendimiento constructivo puede mejorarse en modelos discretos como MaskGIT mitigando la pérdida discreta de MaskGIT con un objetivo continuo auxiliar basado en JEPA.

Takeaways, Limitations

Takeaways:
Descubrimiento de factores clave para la generalización constructiva de modelos generativos visuales.
Sugiere la importancia de los objetivos de entrenamiento discretos/continuos.
Presentamos un nuevo método para mejorar el rendimiento de modelos como MaskGIT.
Limitations:
Se necesita más investigación para determinar la generalización a modelos y conjuntos de datos específicos.
Se necesitan más análisis para determinar por qué los objetivos auxiliares basados ​​en JEPA contribuyen a mejorar el rendimiento.
Falta de exploración de otros factores que influyen en la generalización constructiva.
👍