본 논문은 사전 훈련된 비전 인코더와 대규모 언어 모델(LLM)을 활용하여 별도의 학습 없이 교차 시점 이미지 검색, 특히 거리-위성 이미지 매칭을 수행하는 간단하지만 효과적인 프레임워크를 제시한다. 모노큘러 거리-시점 이미지를 입력으로 받아 웹 기반 이미지 검색과 LLM 기반 위치 추론을 통해 지리적 단서를 추출하고, 지오코딩 API를 통해 위성 쿼리를 생성하며, PCA 기반 화이트닝 특징 정제를 통해 사전 훈련된 비전 인코더 (예: DINOv2)를 사용하여 매칭되는 타일을 검색한다. 제안된 방법은 어떠한 지상 진실 정보 기반 감독이나 미세 조정 없이도 벤치마크 데이터셋에서 기존 학습 기반 방식보다 우수한 성능을 보인다. 또한, 이 파이프라인은 의미적으로 정렬된 거리-위성 데이터셋을 자동으로 구축하여 수동 주석 처리에 대한 확장 가능하고 비용 효율적인 대안을 제공한다.