본 논문은 시각적 장소 인식(VPR)을 위한 새로운 결합 학습 방법인 Pair-VPR을 제안합니다. Pair-VPR은 전역 기술자와 재순위 지정을 위한 쌍 분류기를 동시에 학습합니다. Vision Transformer만으로 구성된 네트워크는 각각의 클래스 토큰을 사용하여 학습되며, 기존 방법과 달리 ImageNet이 아닌 Siamese Masked Image Modelling을 사전 학습 전략으로 사용합니다. 대규모 VPR 데이터셋으로부터 장소 인식 이미지 샘플링 절차를 통해 VPR에 특화된 시각적 특징을 학습하며, Mask Image Modelling의 인코더 및 디코더 가중치를 재사용하여 ViT-B 인코더를 사용한 다섯 개의 벤치마크 데이터셋에서 최첨단 VPR 성능을 달성하고, 더 큰 인코더를 사용하면 위치 재현율이 향상됩니다.