En este artículo, proponemos un método de ajuste fino del modelo de difusión latente (LDM) basado en aprendizaje de refuerzo para imágenes de teledetección de superresolución. Para superar las limitaciones de los métodos existentes basados en aprendizaje profundo en el procesamiento de escenas complejas y la preservación del detalle de las imágenes, construimos un entorno de aprendizaje de refuerzo que optimiza el objetivo de decisión en el proceso de denoising inverso del modelo LDM mediante optimización de políticas proximales (PPO). Los resultados experimentales con el conjunto de datos RESISC45 muestran una mejora del rendimiento de 3 a 4 dB en PSNR, de 0,08 a 0,11 dB en SSIM y de 0,06 a 0,10 dB en LPIPS, en comparación con el modelo base, lo que demuestra su especial eficacia en escenas naturales estructuradas y complejas.