Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Ajuste fino de modelos generativos de difusión mediante optimización de preferencias enriquecidas
Created by
Haebom
Autor
Hanyang Zhao, Haoxian Chen, Yucheng Guo, Genta Indra Winata, Tingting Ou, Ziyu Huang, David D. Yao, Wenpin Tang
Describir
La Optimización de Preferencias Enriquecidas (RPO) es una novedosa metodología que aprovecha señales de retroalimentación enriquecidas para mejorar la selección de pares de preferencias y optimizar los modelos de difusión de texto-imagen. Los métodos existentes, como Diffusion-DPO, suelen basarse únicamente en etiquetas de modelos de recompensa, que son opacas, ofrecen información limitada sobre las razones de las preferencias y son propensas a la piratería de recompensas y al sobreajuste. Por el contrario, la RPO comienza generando análisis detallados de imágenes sintéticas y extrae directrices de edición de imágenes fiables y prácticas. Al implementar estas directrices, genera imágenes sintéticas mejoradas y pares de preferencias ricos en información que pueden utilizarse como conjunto de datos para el ajuste fino. La RPO ha demostrado ser eficaz para optimizar los modelos de difusión de vanguardia; el código está disponible en https://github.com/Diffusion-RLHF/RPO .
Al aprovechar las ricas señales de retroalimentación (críticas detalladas de imágenes), superamos las limitaciones de los métodos existentes (opacidad del etiquetado del modelo de recompensa, información limitada, piratería de recompensas y problemas de sobreajuste).
◦
Extraiga pautas de edición de imágenes confiables y prácticas para generar pares de preferencias sintéticas de mayor calidad.
◦
Contribuye a mejorar el rendimiento de ajuste fino de los modelos de difusión de última generación.
◦
Reproducibilidad y extensibilidad logradas a través de código abierto.
•
Limitations:
◦
El rendimiento del proceso de RPO depende en gran medida de la calidad de las críticas de imágenes, y las críticas de mala calidad pueden generar un rendimiento deficiente.
◦
El proceso de generar críticas detalladas de imágenes sintéticas y extraer pautas de edición de imágenes puede ser computacionalmente costoso.
◦
Existe la posibilidad de que el rendimiento disminuya con ciertos tipos de imágenes o texto. Se requieren experimentos adicionales con diversos conjuntos de datos.