Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Control de alineación en el tiempo de inferencia para modelos de difusión con guía de aprendizaje de refuerzo

Created by
  • Haebom

Autor

Luozhijie Jin, Zijie Qiu, Jie Liu, Zijie Diao, Lifeng Qiao, Ning Ding, Alex Lamb, Xipeng Qiu

Describir

Este documento se basa en los logros de los modelos generativos basados ​​en la eliminación de ruido, en particular los algoritmos de difusión y coincidencia de flujo, para abordar los desafíos de alinear la distribución de salida de los modelos generativos con subobjetivos complejos como la preferencia humana, la precisión compositiva y la tasa de compresión de datos. Para superar las limitaciones de los métodos existentes de ajuste fino del aprendizaje de refuerzo (RL), reinterpretamos el ajuste fino de RL para modelos de difusión desde la perspectiva de ecuaciones diferenciales estocásticas y el condicionamiento de recompensa implícito. Presentamos la Guía de Aprendizaje de Refuerzo (RLG), un método de tiempo de inferencia que combina las salidas de un modelo base y un modelo de RL ajustado finamente mediante medias geométricas y aplica guía sin clasificador (CFG). El análisis teórico demuestra que la métrica de guía de RLG es matemáticamente equivalente a ajustar el coeficiente de regularización KL en objetivos de RL estándar, lo que permite el control dinámico de las compensaciones entre la alineación y la calidad sin entrenamiento adicional. Experimentos exhaustivos demuestran que RLG mejora consistentemente el rendimiento de los modelos de RL ajustados en diversas arquitecturas, algoritmos de RL y subtareas (incluyendo la preferencia humana, el control de la composición, la tasa de compresión y la representación de texto). Además, RLG admite tanto la interpolación como la extrapolación, lo que proporciona una flexibilidad sin precedentes para controlar el alineamiento generativo. En conclusión, este artículo presenta una solución práctica y teóricamente sólida para mejorar y controlar el alineamiento del modelo de difusión durante la inferencia.

Takeaways, Limitations

Takeaways:
Presentamos RLG, un nuevo método para el ajuste fino de modelos de difusión mediante RL.
RLG combina los resultados del modelo base y el modelo RL ajustado utilizando la media geométrica en el momento de la inferencia, lo que permite el control dinámico de la fuerza de alineación sin entrenamiento adicional.
Mejorar el rendimiento de los modelos de ajuste fino de RL en varias subtareas, incluidas la preferencia humana, el control de composición, la relación de compresión y la representación de texto.
Mayor flexibilidad en el control de la alineación generacional al soportar la interpolación y la extrapolación.
La eficacia de RLG está demostrada matemáticamente mediante análisis teórico.
Divulgación del código fuente.
Limitations:
El rendimiento de RLG presentado en este artículo se basa en resultados experimentales para conjuntos de datos y tareas específicos, y se necesita más investigación para determinar el rendimiento de generalización para otros conjuntos de datos o tareas.
El costo computacional de RLG puede ser mayor que el de los métodos convencionales.
La estrategia óptima para ajustar la escala de orientación de RLG se puede mejorar aún más mediante más investigaciones.
👍