Cet article propose une nouvelle formulation d'apprentissage par renforcement (RL) pour l'entraînement d'un modèle de diffusion en temps continu basé sur les scores pour l'IA générative. Cette formulation génère des échantillons qui maximisent une fonction de récompense tout en maintenant la distribution générée proche de la distribution cible inconnue des données. Contrairement aux études précédentes, nous ne cherchons pas à apprendre une fonction de score ni à utiliser un modèle pré-entraîné pour la fonction de score d'une distribution de données inconnue et bruyante. Nous formulons plutôt le problème comme un RL en temps continu régularisé par entropie et montrons que la politique probabiliste optimale a une distribution gaussienne avec une matrice de covariance connue. Sur la base de ce résultat, nous paramétrons la moyenne de la politique gaussienne et développons un algorithme d'apprentissage par renforcement (q-learning) de type acteur-critique (petit) pour résoudre le problème d'RL. Un élément clé de la conception de l'algorithme est d'obtenir des observations bruyantes à partir de la fonction de score inconnue via un estimateur de taux. Cette formulation peut également être appliquée à l'appariement de scores pur et au réglage fin de modèles pré-entraînés. Numériquement, nous démontrons l'efficacité de notre approche en comparant ses performances à celles de deux méthodes RL de pointe pour affiner des modèles pré-entraînés sur plusieurs tâches génératives, dont la génération d'images de grande dimension. Enfin, nous discutons de l'implémentation du modèle de diffusion par EDO de flux probabiliste et de l'extension de la formulation RL au modèle de diffusion conditionnelle.