MMS-VPR은 기존의 차량 기반 영상에 의존하고 다양한 모드와 밀집된 복합 용도의 보행자 중심 환경을 제대로 반영하지 못하는 기존 시각적 장소 인식(VPR) 데이터셋의 한계를 해결하기 위해 제작된 대규모 다중 모드 거리 수준 장소 인식 데이터셋입니다. 중국 청두의 약 70,800 제곱미터 규모의 야외 상업 지구 207곳에서 촬영한 78,575장의 주석이 달린 이미지와 2,512개의 비디오 클립으로 구성됩니다. 각 이미지에는 정확한 GPS 좌표, 타임스탬프, 텍스트 메타데이터가 라벨링되어 있으며, 다양한 조명 조건, 시점 및 시간대를 포함합니다. 최소한의 장비만으로도 데이터 수집이 가능하도록 체계적이고 복제 가능한 데이터 수집 프로토콜을 따르며, 125개의 에지, 81개의 노드 및 1개의 서브 그래프를 갖는 고유한 공간 그래프를 형성하여 구조 인식 장소 인식을 지원합니다. 세분화된 그래프 기반 평가를 위해 Dataset_Edges 및 Dataset_Points라는 두 개의 애플리케이션별 하위 데이터셋을 정의했습니다. 기존 VPR 모델, 그래프 신경망 및 다중 모드 기준을 사용한 광범위한 벤치마크는 다중 모드 및 구조적 단서를 활용할 때 상당한 성능 향상을 보여줍니다. MMS-VPR은 컴퓨터 비전, 지리 공간 이해 및 다중 모드 추론의 교차점에서 미래 연구를 촉진합니다. 데이터셋은 https://huggingface.co/datasets/Yiwei-Ou/MMS-VPR 에서 공개적으로 이용 가능합니다.