Cet article présente un cadre d'application de modèles de diffusion latente pré-entraînés à grande échelle à la génération d'images radar à synthèse d'ouverture (SAR) haute résolution. Cette approche permet la synthèse et la génération contrôlées de scènes rares ou hors distribution, au-delà de l'ensemble d'apprentissage. Au lieu d'entraîner de toutes pièces un petit modèle spécifique à une tâche, nous appliquons un modèle open source de conversion texte-image à la modalité SAR, en utilisant des informations a priori sémantiques pour aligner les signaux avec la physique de l'imagerie SAR (géométrie en vue latérale, projection de distance oblique et speckle cohérent avec statistiques à queue lourde). À l'aide d'un jeu de données SAR de 100 000 images, nous comparons le réglage fin complet et l'adaptation de bas rang efficace en termes de paramètres (LoRA) sur un réseau de diffusion UNet, un auto-encodeur variationnel (VAE) et un encodeur de texte. L'évaluation combine (i) la distance statistique à la véritable distribution d'amplitude du SAR, (ii) la similarité de texture via le descripteur de matrice de cooccurrence des niveaux de gris (GLCM) et (iii) l'alignement sémantique à l'aide du modèle CLIP spécifique au SAR. Les résultats démontrent qu'une stratégie hybride utilisant LoRA pour les encodeurs de texte (réglage UNet complet et intégration de jetons appris) préserve au mieux la géométrie et la texture du SAR tout en maintenant la fidélité des signaux. Ce cadre prend en charge le contrôle textuel et le conditionnement multimodal (par exemple, les cartes de segmentation, TerraSAR-X ou le guidage optique), ouvrant de nouvelles perspectives pour l'augmentation des données de scènes SAR à grande échelle et la simulation de scénarios inédits en observation de la Terre.