Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Guía gratuita de clasificadores con reconocimiento de avisos para modelos de difusión

Created by
  • Haebom

Autor

Xuanhao Zhang, Chang Li

Describir

Los modelos de difusión han logrado avances significativos en la generación de imágenes y audio mediante la guía sin clasificadores, pero la selección de la escala de guía ha sido poco estudiada. Las escalas fijas a menudo no se generalizan a indicaciones de diversa complejidad y suelen provocar sobresaturación o alineación deficiente. Este artículo aborda esta deficiencia introduciendo un marco que reconoce las indicaciones para predecir la calidad dependiente de la escala y seleccionar la guía óptima durante la inferencia. Específicamente, construimos un conjunto de datos sintéticos a gran escala generando muestras a múltiples escalas y calificándolas con métricas de evaluación fiables. Un predictor ligero, condicionado por las incrustaciones semánticas y la complejidad lingüística, estima una curva de calidad multimétrica, y se utiliza una función de utilidad para determinar la escala óptima mediante regularización. Los resultados experimentales en MSCOCO~2014 y AudioCaps demuestran mejoras consistentes con respecto a la CFG estándar, mejorando la fidelidad, la alineación y la conveniencia perceptual. Este estudio demuestra que la selección de escala que reconoce las indicaciones proporciona mejoras efectivas, sin entrenamiento, a las estructuras principales de difusión preentrenadas.

Takeaways, Limitations

Takeaways:
Mejora del rendimiento de los modelos de difusión mediante la selección de escala con conocimiento de causa.
Al elegir una escala de orientación que se generaliza a varias complejidades de indicaciones, abordamos problemas de sobresaturación y alineación débil.
Proporciona mejoras sin necesidad de entrenamiento con respecto a las estructuras de difusión entrenadas previamente.
Se ha demostrado experimentalmente que es aplicable tanto a tareas de generación de imágenes como de generación de audio.
Limitations:
Se necesita información más detallada sobre la implementación del marco específico y el alcance de las mejoras de rendimiento.
Falta de información sobre la complejidad y el costo computacional de los predictores ligeros.
Se necesita más investigación para determinar la generalización a otras arquitecturas de modelos de difusión.
Es necesario evaluar la escalabilidad del método propuesto en aplicaciones reales.
👍