Este documento se basa en los logros de los modelos generativos basados en la eliminación de ruido, en particular los algoritmos de difusión y coincidencia de flujo, para abordar los desafíos de alinear la distribución de salida de los modelos generativos con subobjetivos complejos como la preferencia humana, la precisión compositiva y la tasa de compresión de datos. Para superar las limitaciones de los métodos existentes de ajuste fino del aprendizaje de refuerzo (RL), reinterpretamos el ajuste fino de RL para modelos de difusión desde la perspectiva de ecuaciones diferenciales estocásticas y el condicionamiento de recompensa implícito. Presentamos la Guía de Aprendizaje de Refuerzo (RLG), un método de tiempo de inferencia que combina las salidas de un modelo base y un modelo de RL ajustado finamente mediante medias geométricas y aplica guía sin clasificador (CFG). El análisis teórico demuestra que la métrica de guía de RLG es matemáticamente equivalente a ajustar el coeficiente de regularización KL en objetivos de RL estándar, lo que permite el control dinámico de las compensaciones entre la alineación y la calidad sin entrenamiento adicional. Experimentos exhaustivos demuestran que RLG mejora consistentemente el rendimiento de los modelos de RL ajustados en diversas arquitecturas, algoritmos de RL y subtareas (incluyendo la preferencia humana, el control de la composición, la tasa de compresión y la representación de texto). Además, RLG admite tanto la interpolación como la extrapolación, lo que proporciona una flexibilidad sin precedentes para controlar el alineamiento generativo. En conclusión, este artículo presenta una solución práctica y teóricamente sólida para mejorar y controlar el alineamiento del modelo de difusión durante la inferencia.