En este artículo, presentamos un método novedoso para aplicar modelos de difusión de texto a imagen a gran escala, previamente entrenados, a la conversión de imagen a imagen de forma inmediata. Este método logra una conversión de imagen a imagen basada en texto de alta calidad y versatilidad, sin necesidad de entrenamiento, ajuste ni optimización en línea del modelo. Para la generación de texto a imagen a partir de imágenes de referencia, descomponemos los elementos guía en diversas bandas de frecuencia de características de difusión en el espacio espectral DCT y diseñamos una novedosa capa de permutación de bandas de frecuencia que permite el control dinámico de las imágenes de referencia. Demostramos que los elementos guía y las intensidades de las imágenes de referencia pueden controlarse de forma flexible ajustando los tipos y anchos de banda de las bandas de frecuencia. Los resultados experimentales demuestran que el método propuesto supera a los métodos existentes en términos de calidad de imagen, diversidad y controlabilidad de la conversión de imagen a imagen. El código está disponible públicamente.