Sign In

Pair-VPR: Place-Aware Pre-training and Contrastive Pair Classification for Visual Place Recognition with Vision Transformers

Created by
  • Haebom
Category
Empty

저자

Stephen Hausler, Peyman Moghadam

개요

본 논문은 시각적 장소 인식(VPR)을 위한 새로운 결합 학습 방법인 Pair-VPR을 제안합니다. Pair-VPR은 전역 기술자와 재순위 지정을 위한 쌍 분류기를 동시에 학습합니다. Vision Transformer만으로 구성된 네트워크는 각각의 클래스 토큰을 사용하여 학습되며, 기존 방법과 달리 ImageNet이 아닌 Siamese Masked Image Modelling을 사전 학습 전략으로 사용합니다. 대규모 VPR 데이터셋으로부터 장소 인식 이미지 샘플링 절차를 통해 VPR에 특화된 시각적 특징을 학습하며, Mask Image Modelling의 인코더 및 디코더 가중치를 재사용하여 ViT-B 인코더를 사용한 다섯 개의 벤치마크 데이터셋에서 최첨단 VPR 성능을 달성하고, 더 큰 인코더를 사용하면 위치 재현율이 향상됩니다.

시사점, 한계점

시사점:
Siamese Masked Image Modelling을 이용한 VPR 특화 사전 학습 전략 제시
전역 기술자와 쌍 분류기를 결합한 효과적인 VPR 모델 제안
다양한 벤치마크 데이터셋에서 최첨단 성능 달성
ViT-B 이상의 큰 인코더 사용 시 위치 재현율 향상
한계점:
제시된 방법의 일반화 성능에 대한 추가적인 실험 필요
특정 데이터셋에 대한 편향성 여부에 대한 추가적인 분석 필요
다른 종류의 네트워크 아키텍처에 대한 적용성 검증 필요
👍