Para abordar los desafíos de la recuperación de imagen a texto mediante teledetección, este artículo propone PriorCLIP, un modelo visual-lingüístico que aprovecha la información previa visual. PriorCLIP aprovecha la información previa visual para el aprendizaje de representaciones imparciales y la alineación adaptativa de imagen a lenguaje. En un entorno de dominio cerrado, PriorCLIP utiliza arquitecturas espaciales y temporales de Codificadores de Atención Progresiva (PAE) para filtrar características salientes, mitigar el sesgo semántico y mejorar las representaciones textuales. En un entorno de dominio abierto, PriorCLIP diseña una estrategia de aprendizaje de representaciones de diccionario en dos etapas que consiste en el entrenamiento de diccionarios a gran escala en pares de imagen a texto aproximados y el ajuste fino mediante indicadores visuales, lo que permite una recuperación robusta de conceptos de cola larga y variaciones léxicas. Además, proponemos una pérdida de atribución contrastiva simétrica basada en clústeres para restringir las relaciones entre clases y mitigar la confusión semántica en un espacio de incrustación compartido. Experimentos exhaustivos en los puntos de referencia RSICD y RSITMD demuestran que PriorCLIP logra mejoras de rendimiento significativas con respecto a los métodos existentes: 4,9% y 4,0% en recuperación de dominio cerrado, y 7,3% y 9,4% en recuperación de dominio abierto.