Bài báo này trình bày một khuôn khổ để áp dụng các mô hình khuếch tán tiềm ẩn quy mô lớn, được đào tạo trước vào việc tạo ảnh radar khẩu độ tổng hợp (SAR) có độ phân giải cao. Phương pháp này cho phép tổng hợp có kiểm soát và tạo ra các cảnh hiếm hoặc không phân phối ngoài tập huấn luyện. Thay vì huấn luyện một mô hình nhỏ, dành riêng cho tác vụ từ đầu, chúng tôi áp dụng một mô hình dựa trên văn bản thành hình ảnh nguồn mở cho phương thức SAR, sử dụng thông tin ngữ nghĩa trước để căn chỉnh các lời nhắc với vật lý hình ảnh SAR (hình học nhìn từ bên, phép chiếu khoảng cách xiên và đốm sáng nhất quán với thống kê đuôi nặng). Sử dụng bộ dữ liệu SAR gồm 100.000 ảnh, chúng tôi so sánh tinh chỉnh hoàn toàn và điều chỉnh hạng thấp hiệu quả về tham số (LoRA) trên xương sống khuếch tán UNet, bộ mã hóa tự động biến phân (VAE) và bộ mã hóa văn bản. Đánh giá kết hợp (i) khoảng cách thống kê đến phân phối biên độ SAR thực, (ii) độ tương đồng về kết cấu thông qua mô tả ma trận đồng hiện mức xám (GLCM) và (iii) căn chỉnh ngữ nghĩa bằng mô hình CLIP dành riêng cho SAR. Kết quả chứng minh rằng một chiến lược kết hợp sử dụng LoRA làm bộ mã hóa văn bản—điều chỉnh UNet đầy đủ và nhúng mã thông báo đã học—bảo toàn tốt nhất hình học và kết cấu SAR trong khi vẫn duy trì độ trung thực tức thời. Khung này hỗ trợ điều khiển dựa trên văn bản và điều kiện hóa đa phương thức (ví dụ: bản đồ phân đoạn, TerraSAR-X, hoặc dẫn đường quang học), mở ra những hướng đi mới cho việc tăng cường dữ liệu cảnh SAR quy mô lớn và mô phỏng các tình huống chưa từng thấy trong quan sát Trái Đất.