Dans cet article, nous proposons une nouvelle méthode d'apprentissage auto-supervisé pour la segmentation sémantique d'images satellites. Contrairement aux méthodes basées sur la reconstruction, telles que les auto-encodeurs masqués (MAE), nous appliquons la méthode LOCA (Local-aware) basée sur la prédiction de localisation aux données multimodales d'images satellites. Plus précisément, nous étendons le regroupement de canaux de SatMAE du multispectral au multimodal, et introduisons le masque d'attention de même groupe pour améliorer l'interaction entre les modalités. Nous améliorons la capacité d'inférence spatiale en nous concentrant sur la localisation grâce à la prédiction de la localisation relative des parcelles. Nous montrons que cette méthode surpasse significativement la méthode d'apprentissage auto-supervisé basée sur la reconstruction existante sur le jeu de données de cartographie des inondations Sen1Floods11. Par conséquent, nous prouvons que la tâche de prédiction de localisation correctement appliquée aux images satellites multimodales apprend des représentations plus efficaces pour la segmentation sémantique des images satellites que l'approche basée sur la reconstruction.