Pour relever les défis de la récupération d'images-textes par télédétection, cet article propose PriorCLIP, un modèle de langage visuel exploitant les informations visuelles a priori. PriorCLIP exploite ces informations pour un apprentissage de représentation impartial et un alignement adaptatif image-langage. En domaine fermé, PriorCLIP utilise des architectures d'encodeurs d'attention progressive (PAE) spatio-temporels pour filtrer les caractéristiques saillantes, atténuer les biais sémantiques et améliorer les représentations textuelles. En domaine ouvert, PriorCLIP conçoit une stratégie d'apprentissage de représentations dictionnairiques en deux étapes, comprenant un apprentissage à grande échelle du dictionnaire sur des paires image-texte grossières et un réglage fin à l'aide d'indicateurs visuels, permettant une récupération robuste des concepts de longue traîne et des variations lexicales. De plus, nous proposons une perte d'attribution contrastive symétrique basée sur les clusters afin de contraindre les relations inter-classes et d'atténuer la confusion sémantique dans un espace d'intégration partagé. Des expériences approfondies sur les benchmarks RSICD et RSITMD démontrent que PriorCLIP permet d'obtenir des gains de performance significatifs par rapport aux méthodes existantes : 4,9 % et 4,0 % dans la récupération en domaine fermé, et 7,3 % et 9,4 % dans la récupération en domaine ouvert.