Este artículo analiza trabajos recientes que utilizan aprendizaje por refuerzo (AR) para mejorar la alineación texto-imagen y la calidad de la muestra en modelos de difusión de texto-imagen. Los enfoques existentes introducen una complejidad innecesaria, como el almacenamiento en caché de toda la ruta de muestreo, la dependencia de modelos de recompensa diferenciables o grandes conjuntos de datos de preferencias, o la necesidad de técnicas de guía especiales. Inspirados por la hipótesis del "ruido de oro", que sostiene que ciertas muestras iniciales de ruido pueden proporcionar una buena alineación de forma consistente, presentamos Noise PPO, un algoritmo minimalista de AR que corrige completamente un modelo de difusión preentrenado y aprende un generador de ruido inicial condicional. Noise PPO no requiere almacenamiento de rutas, retropropagación de recompensas ni técnicas de guía complejas. Experimentos exhaustivos demuestran que optimizar la distribución inicial del ruido mejora de forma consistente la alineación y la calidad de la muestra con respecto al modelo original, y que los beneficios son mayores con menos pasos de inferencia. Si bien los beneficios de la optimización del ruido disminuyen a medida que aumenta el número de pasos de inferencia, siguen presentes. Estos resultados aclaran el alcance y las limitaciones de la hipótesis del ruido de oro y refuerzan el valor práctico del ajuste fino minimalista del AR para modelos de difusión.