Este artículo propone un método novedoso, Direct-Align, para abordar dos desafíos clave: el coste computacional de los métodos existentes que alinean directamente los modelos de difusión con las preferencias humanas y la necesidad de una adaptación continua del modelo de compensación offline. Direct-Align reduce el coste computacional del proceso de eliminación de ruido en varios pasos al definir un diccionario de ruido y recuperar eficazmente la imagen original en todos los pasos de tiempo mediante interpolación. Además, introduce la Optimización Semántica de Preferencias Relativa (SRPO), que utiliza señales condicionales de texto como compensación. Esto reduce la dependencia del ajuste fino de la compensación offline, ajustando la compensación online en función del refuerzo de las indicaciones, tanto positivas como negativas. En consecuencia, el ajuste fino del modelo FLUX triplica con creces el realismo y la calidad estética de los criterios de evaluación humana.