본 논문은 원격 감지 영상-텍스트 검색의 어려움을 해결하기 위해 시각적 사전 정보를 활용한 시각-언어 모델인 PriorCLIP을 제안합니다. PriorCLIP은 편향되지 않은 표현 학습과 적응적인 시각-언어 정렬을 위해 시각적 사전 정보를 활용합니다. 폐쇄 영역 설정에서는 공간적 및 시간적 Progressive Attention Encoder (PAE) 구조를 사용하여 주요 특징을 필터링하고 의미적 편향을 완화하며, 텍스트 표현을 향상시킵니다. 개방 영역 설정에서는 거친 영상-텍스트 쌍에 대한 대규모 사전 학습과 시각적 지시어를 사용한 미세 조정으로 구성된 2단계 사전 표현 학습 전략을 설계하여 긴 꼬리 개념과 어휘 변화에 대한 강력한 검색을 가능하게 합니다. 또한, 클러스터 기반 대칭적 대조적 귀속 손실을 제안하여 클래스 간 관계를 제약하고 공유 임베딩 공간에서 의미적 혼란을 완화합니다. RSICD 및 RSITMD 벤치마크에 대한 광범위한 실험을 통해 PriorCLIP이 기존 방법보다 폐쇄 영역 검색에서 4.9% 및 4.0%, 개방 영역 검색에서 7.3% 및 9.4%의 상당한 성능 향상을 달성함을 보여줍니다.