LocDiff: Identifying Locations on Earth by Diffusing in the Hilbert Space
Created by
Haebom
Category
Empty
저자
Zhangyu Wang, Zeping Liu, Jielu Zhang, Zhongliang Zhou, Qian Cao, Nemin Wu, Lan Mu, Yang Song, Yiqun Xie, Ni Lao, Gengchen Mai
개요
이미지 지리적 위치 추정은 이미지 촬영 위치를 추론하는 어려운 작업입니다. 기존 방법들은 그리드 기반 분류 또는 갤러리 기반 이미지-위치 검색을 사용하는데, 테스트 이미지의 공간 분포가 그리드 및 갤러리 선택과 일치하지 않으면 공간 일반화가 저하됩니다. 최근 등장한 생성적 접근 방식은 그리드와 갤러리를 사용하지 않지만, 원시 지리적 좌표를 사용하여 다중 스케일 정보 부족으로 품질 손실을 겪습니다. 이러한 한계를 해결하기 위해, 본 논문에서는 LocDiff라는 다중 스케일 잠재 확산 모델을 제안합니다. Spherical Harmonics Dirac Delta (SHDD) Representations라는 새로운 위치 인코딩-디코딩 프레임워크를 개발하여 구 표면(예: 지구상의 지리적 위치)의 점을 Spherical Harmonics 계수의 힐베르트 공간으로 인코딩하고, 구 확률 분포에 대한 모드 탐색을 통해 점(지리적 위치)을 디코딩합니다. 또한, 이미지 기반 조건부 역방향 프로세스를 학습하기 위해 SirenNet 기반 아키텍처(CS-UNet)를 제안합니다. LocDiff는 다중 스케일 위치 인코딩 공간에서 잠재 확산을 수행하고 이미지의 지침에 따라 지리적 위치를 생성하는 최초의 이미지 지리적 위치 추정 모델입니다. 실험 결과는 LocDiff가 5개의 어려운 글로벌 규모 이미지 지리적 위치 추정 데이터 세트에서 모든 최첨단 그리드 기반, 검색 기반 및 확산 기반 기준선을 능가하며, 보이지 않는 지리적 위치에 대한 강력한 일반화 성능을 보임을 보여줍니다.
시사점, 한계점
•
시사점:
◦
새로운 다중 스케일 잠재 확산 모델(LocDiff) 제시.
◦
Spherical Harmonics Dirac Delta (SHDD) Representations를 활용한 새로운 위치 인코딩-디코딩 프레임워크 개발.