Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelos de difusión basados en puntuaciones y dirigidos por recompensas mediante aprendizaje q

Created by
  • Haebom

Autor

Xuefeng Gao, Jiale Zha, Xun Yu Zhou

Describir

Este artículo propone una novedosa formulación de aprendizaje por refuerzo (RL) para entrenar un modelo de difusión basado en puntuaciones de tiempo continuo para IA generativa. Esta formulación genera muestras que maximizan una función de recompensa mientras mantienen la distribución generada cerca de la distribución de datos objetivo desconocida. A diferencia de estudios previos, no intentamos aprender una función de puntuación ni utilizar un modelo preentrenado para la función de puntuación de una distribución de datos desconocida y ruidosa. En su lugar, formulamos el problema como un RL de tiempo continuo regularizado por entropía y mostramos que la política probabilística óptima tiene una distribución gaussiana con una matriz de covarianza conocida. Con base en este resultado, parametrizamos la media de la política gaussiana y desarrollamos un algoritmo de aprendizaje q de tipo actor-crítico (pequeño) para resolver el problema de RL. Un elemento clave del diseño del algoritmo es obtener observaciones ruidosas de la función de puntuación desconocida mediante un estimador de tasa. Esta formulación también se puede aplicar al emparejamiento de puntuaciones puro y al ajuste fino de modelos preentrenados. Numéricamente, demostramos la eficacia de nuestro enfoque comparando su rendimiento con dos métodos de aprendizaje automático (RL) de vanguardia para el ajuste fino de modelos preentrenados en diversas tareas generativas, incluyendo la generación de imágenes de alta dimensión. Finalmente, analizamos la implementación de EDO de flujo probabilístico del modelo de difusión y la extensión de la formulación de RL al modelo de difusión condicional.

Takeaways, Limitations

Takeaways:
Presentamos una nueva formulación RL para entrenar modelos de difusión basados en puntuaciones de tiempo continuo sin modelos entrenados previamente.
Desarrollo de un algoritmo eficiente utilizando las características de distribución Gaussiana de políticas óptimas.
Aprendizaje efectivo a través de la adquisición de observaciones ruidosas utilizando un estimador de razón.
También se puede aplicar a la correspondencia de puntuaciones puras y al ajuste fino de modelos entrenados previamente.
Se demostró un rendimiento superior en comparación con los métodos existentes en diversas tareas de generación, incluida la generación de imágenes de alta dimensión.
Sugerencia de extensiones para EDO de flujo estocástico y modelos de difusión condicional.
Limitations:
Se necesitan más experimentos y análisis para determinar el rendimiento de generalización del método propuesto.
Se necesita más investigación sobre la escalabilidad y los costos computacionales para datos de alta dimensión.
El rendimiento puede verse afectado por la precisión del estimador de relación.
Limitaciones de rendimiento en situaciones donde no hay ninguna información sobre la función de puntuación desconocida.
👍