이미지 지리적 위치 추정은 이미지의 지리적 기원을 결정하는 과제입니다. 본 논문에서는 광범위한 지역에서 특정 주소로 범위를 좁히는 인간의 방식을 모방한 계층적 시퀀스 예측 접근 방식을 제안합니다. S2 셀을 사용하여 계층적으로 지리적 토큰을 예측하고, 시각적 입력과 이전 예측을 기반으로 예측을 세분화합니다. 빔 서치 및 멀티 샘플 추론과 같은 추론 시간 전략을 통합하여 불확실성을 관리합니다. Im2GPS3k 및 YFCC4k 데이터 세트에서 MLLM(Multimodal Large Language Model)을 사용하지 않거나 사용하는 두 가지 기반 모델과 비교하여, MLLM을 사용하지 않는 환경에서 최대 13.9%의 정확도 향상으로 최고 성능을 달성했으며, MLLM을 사용하는 경우 모든 지표에서 새로운 최고 성능을 기록했습니다.