Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión

Created by
  • Haebom

Autor

Zejian Li, Yize Li, Chenye Meng, Zhongni Liu, Yang Ling, Shengyuan Zhang, Guang Yang, Changyuan Yang, Zhiyuan Yang, Lingyun Sun

Describir

En este artículo, proponemos Inversión-DPO, un nuevo marco para la alineación de modelos de difusión (DM). Los métodos existentes presentan problemas como el alto coste computacional del aprendizaje del modelo de recompensa y la baja precisión y eficiencia del entrenamiento. Inversión-DPO omite el aprendizaje del modelo de recompensa al reconstruir la Optimización de Preferencias Directas (DPO) mediante la inversión DDIM. Presentamos un nuevo paradigma post-entrenamiento mediante el muestreo probabilístico posterior complejo en DPO de difusión mediante inversión determinista de muestras ganadoras y perdedoras a ruido. Esto mejora significativamente la precisión y la eficiencia sin un modelo de recompensa. Aplicamos Inversión-DPO a la generación de texto a imagen y a tareas de generación de imágenes complejas, y demostramos mejoras de rendimiento con respecto a los métodos existentes, demostrando la capacidad de generar imágenes de alta calidad y consistencia compleja. Para la generación de imágenes complejas post-entrenamiento, construimos un nuevo conjunto de datos pareados que contiene 11.140 anotaciones estructurales complejas y puntuaciones completas. Inversión-DPO presenta un nuevo método para la alineación eficiente y precisa del modelo de difusión, y aumenta su aplicabilidad a tareas complejas de generación realista. El código se puede encontrar en https://github.com/MIGHTYEZ/Inversion-DPO .

Takeaways, Limitations

Takeaways:
Presentamos un método novedoso para realizar eficientemente la alineación de modelos de difusión sin aprender un modelo de recompensa.
Consiga una mayor precisión y eficiencia en el entrenamiento en comparación con los métodos existentes.
Rendimiento mejorado de la generación de imágenes de alta calidad para tareas complejas como la generación de imágenes compuestas.
Proporciona un nuevo conjunto de datos emparejados para la generación de imágenes compuestas.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Se necesitan estudios de aplicabilidad y comparación de rendimiento para diversas tareas.
Posibles limitaciones en el tamaño y la diversidad del conjunto de datos pareados presentado.
👍