Sign In

GeoToken: Hierarchical Geolocalization of Images via Next Token Prediction

Created by
  • Haebom
Category
Empty

저자

Narges Ghasemi, Amir Ziashahabi, Salman Avestimehr, Cyrus Shahabi

개요

이미지 지리적 위치 추정은 이미지의 지리적 기원을 결정하는 과제입니다. 본 논문에서는 광범위한 지역에서 특정 주소로 범위를 좁히는 인간의 방식을 모방한 계층적 시퀀스 예측 접근 방식을 제안합니다. S2 셀을 사용하여 계층적으로 지리적 토큰을 예측하고, 시각적 입력과 이전 예측을 기반으로 예측을 세분화합니다. 빔 서치 및 멀티 샘플 추론과 같은 추론 시간 전략을 통합하여 불확실성을 관리합니다. Im2GPS3k 및 YFCC4k 데이터 세트에서 MLLM(Multimodal Large Language Model)을 사용하지 않거나 사용하는 두 가지 기반 모델과 비교하여, MLLM을 사용하지 않는 환경에서 최대 13.9%의 정확도 향상으로 최고 성능을 달성했으며, MLLM을 사용하는 경우 모든 지표에서 새로운 최고 성능을 기록했습니다.

시사점, 한계점

계층적 시퀀스 예측 접근 방식은 이미지 지리적 위치 추정 문제 해결에 효과적임을 입증했습니다.
S2 셀을 활용하여 전역 그리드를 구성하고 계층적 예측을 수행하는 방식은 기존 방식보다 우수한 성능을 보였습니다.
빔 서치 및 멀티 샘플 추론과 같은 추론 시간 전략을 통해 모델의 불확실성 관리 능력을 향상시켰습니다.
MLLM 유무에 관계없이 모든 지표에서 SOTA를 달성했습니다.
한계점은 논문에 명시되지 않았습니다.
👍