Cet article s'appuie sur les acquis des modèles génératifs basés sur le débruitage, notamment les algorithmes de diffusion et d'appariement de flux, pour relever les défis de l'alignement de la distribution de sortie des modèles génératifs avec des sous-objectifs complexes tels que la préférence humaine, la précision compositionnelle et le taux de compression des données. Pour surmonter les limites des méthodes de réglage fin de l'apprentissage par renforcement (RL) existantes, nous réinterprétons le réglage fin de l'RL pour les modèles de diffusion en termes d'équations différentielles stochastiques et de conditionnement de récompense implicite. Nous présentons le guidage par l'apprentissage par renforcement (RLG), une méthode d'inférence qui combine les sorties d'un modèle de base et d'un modèle affiné par RL par des moyens géométriques et applique un guidage sans classificateur (CFG). L'analyse théorique démontre que la métrique de guidage du RLG est mathématiquement équivalente à l'ajustement du coefficient de régularisation KL dans les objectifs RL standard, permettant un contrôle dynamique des compromis alignement-qualité sans formation supplémentaire. Des expériences approfondies démontrent que le RLG améliore systématiquement les performances des modèles RL affinés sur une variété d'architectures, d'algorithmes RL et de sous-tâches (notamment les préférences humaines, le contrôle compositionnel, le taux de compression et le rendu de texte). De plus, le RLG prend en charge l'interpolation et l'extrapolation, offrant une flexibilité sans précédent dans le contrôle de l'alignement génératif. En conclusion, cet article présente une solution pratique et théoriquement solide pour améliorer et contrôler l'alignement des modèles de diffusion lors de l'inférence.