Este artículo propone una novedosa formulación de aprendizaje por refuerzo (RL) para entrenar un modelo de difusión basado en puntuaciones de tiempo continuo para IA generativa. Esta formulación genera muestras que maximizan una función de recompensa mientras mantienen la distribución generada cerca de la distribución de datos objetivo desconocida. A diferencia de estudios previos, no intentamos aprender una función de puntuación ni utilizar un modelo preentrenado para la función de puntuación de una distribución de datos desconocida y ruidosa. En su lugar, formulamos el problema como un RL de tiempo continuo regularizado por entropía y mostramos que la política probabilística óptima tiene una distribución gaussiana con una matriz de covarianza conocida. Con base en este resultado, parametrizamos la media de la política gaussiana y desarrollamos un algoritmo de aprendizaje q de tipo actor-crítico (pequeño) para resolver el problema de RL. Un elemento clave del diseño del algoritmo es obtener observaciones ruidosas de la función de puntuación desconocida mediante un estimador de tasa. Esta formulación también se puede aplicar al emparejamiento de puntuaciones puro y al ajuste fino de modelos preentrenados. Numéricamente, demostramos la eficacia de nuestro enfoque comparando su rendimiento con dos métodos de aprendizaje automático (RL) de vanguardia para el ajuste fino de modelos preentrenados en diversas tareas generativas, incluyendo la generación de imágenes de alta dimensión. Finalmente, analizamos la implementación de EDO de flujo probabilístico del modelo de difusión y la extensión de la formulación de RL al modelo de difusión condicional.