Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Inversión-DPO: Post-entrenamiento preciso y eficiente para modelos de difusión
Created by
Haebom
Autor
Zejian Li, Yize Li, Chenye Meng, Zhongni Liu, Yang Ling, Shengyuan Zhang, Guang Yang, Changyuan Yang, Zhiyuan Yang, Lingyun Sun
Describir
En este artículo, proponemos Inversión-DPO, un nuevo marco para la alineación de modelos de difusión (DM). Los métodos existentes presentan problemas como el alto coste computacional del aprendizaje del modelo de recompensa y la baja precisión y eficiencia del entrenamiento. Inversión-DPO omite el aprendizaje del modelo de recompensa al reconstruir la Optimización de Preferencias Directas (DPO) mediante la inversión DDIM. Presentamos un nuevo paradigma post-entrenamiento mediante el muestreo probabilístico posterior complejo en DPO de difusión mediante inversión determinista de muestras ganadoras y perdedoras a ruido. Esto mejora significativamente la precisión y la eficiencia sin un modelo de recompensa. Aplicamos Inversión-DPO a la generación de texto a imagen y a tareas de generación de imágenes complejas, y demostramos mejoras de rendimiento con respecto a los métodos existentes, demostrando la capacidad de generar imágenes de alta calidad y consistencia compleja. Para la generación de imágenes complejas post-entrenamiento, construimos un nuevo conjunto de datos pareados que contiene 11.140 anotaciones estructurales complejas y puntuaciones completas. Inversión-DPO presenta un nuevo método para la alineación eficiente y precisa del modelo de difusión, y aumenta su aplicabilidad a tareas complejas de generación realista. El código se puede encontrar en https://github.com/MIGHTYEZ/Inversion-DPO .