EarthSynth es un modelo generativo fundamental basado en la difusión, propuesto para abordar la falta de datos etiquetados, un desafío en la interpretación de imágenes de teledetección. Sintetiza diversos datos satelitales para generar datos etiquetados de observación de la Tierra para tareas posteriores de interpretación de imágenes de teledetección. En concreto, es el primero en intentar la generación multitarea en el campo de la teledetección, superando las limitaciones de generalización de la síntesis orientada a tareas. Entrenado con el conjunto de datos EarthSynth-180K, EarthSynth utiliza una estrategia de entrenamiento composicional contrafactual y un mecanismo de selección de muestras por lotes 3D para mejorar la diversidad de los datos de entrenamiento y fortalecer el control categórico. Además, propone un método basado en reglas llamado R-Filter para filtrar datos sintéticos informativos. Evaluamos EarthSynth en tareas de clasificación de escenas, detección de objetos y segmentación semántica en escenarios de mundo abierto, demostrando mejoras significativas en el rendimiento en tareas de comprensión de vocabulario abierto, lo que proporciona una solución práctica para avanzar en la interpretación de imágenes de teledetección.