EarthSynth est un modèle fondamental génératif basé sur la diffusion, proposé pour pallier le manque de données étiquetées, un défi dans l'interprétation d'images de télédétection. Il synthétise diverses données satellitaires afin de générer des données d'observation de la Terre étiquetées pour les tâches d'interprétation d'images de télédétection en aval. Plus précisément, il est le premier à tenter une génération multitâche dans le domaine de la télédétection, surmontant les limites de généralisation de la synthèse orientée tâches. Entraîné sur le jeu de données EarthSynth-180K, EarthSynth utilise une stratégie d'entraînement compositionnel contrefactuel et un mécanisme de sélection d'échantillons par lots 3D pour améliorer la diversité des données d'entraînement et renforcer le contrôle catégoriel. De plus, il propose une méthode basée sur des règles, appelée R-Filter, pour filtrer les données synthétiques informatives. Nous évaluons EarthSynth sur des tâches de classification de scènes, de détection d'objets et de segmentation sémantique dans des scénarios en monde ouvert, démontrant des gains de performance significatifs sur les tâches de compréhension de vocabulaire ouvert, offrant une solution pratique pour faire progresser l'interprétation d'images de télédétection.