Este artículo presenta un marco para aplicar modelos de difusión latente a gran escala, previamente entrenados, a la generación de imágenes de radar de apertura sintética (SAR) de alta resolución. Este enfoque permite la síntesis y generación controladas de escenas poco comunes o fuera de distribución, más allá del conjunto de entrenamiento. En lugar de entrenar desde cero un modelo pequeño y específico para cada tarea, aplicamos un modelo de texto a imagen de código abierto a la modalidad SAR, utilizando información semántica previa para alinear las indicaciones con la física de las imágenes SAR (geometría de vista lateral, proyección de distancia oblicua y moteado coherente con estadísticas de cola pesada). Utilizando un conjunto de datos SAR de 100 000 imágenes, comparamos el ajuste fino completo y la adaptación de bajo rango (LoRA) con eficiencia de parámetros en una estructura principal de difusión UNet, un autocodificador variacional (VAE) y un codificador de texto. La evaluación combina (i) la distancia estadística a la distribución real de amplitud del SAR, (ii) la similitud de texturas mediante el descriptor de la matriz de coocurrencia en niveles de gris (GLCM), y (iii) la alineación semántica mediante el modelo CLIP específico para SAR. Los resultados demuestran que una estrategia híbrida que utiliza LoRA como codificador de texto (ajuste completo de UNet e incrustaciones de tokens aprendidos) preserva óptimamente la geometría y la textura del SAR, manteniendo al mismo tiempo la fidelidad de la señal. Este marco admite el control basado en texto y el condicionamiento multimodal (p. ej., mapas de segmentación, TerraSAR-X o guía óptica), lo que abre nuevas vías para la ampliación de datos de escenas SAR a gran escala y la simulación de escenarios inéditos en la observación de la Tierra.