본 논문은 Gemma 3와 같은 거대 다중모달 기초 모델을 소량의 고품질 데이터셋으로 목표 지도 학습(SFT)하여 이미지의 지리적 위치를 정확하게 파악하는 새로운 프레임워크 GeoLocSFT를 제안합니다. GeoLocSFT는 지리적으로 다양한 MR600k 데이터셋에서 신중하게 선택된 2700개의 이미지-GPS 쌍으로 학습되었으며, 기존 모델들보다 성능이 크게 향상되어 Im2GPS-3k, YFCC-4k와 같은 표준 벤치마크뿐만 아니라 인구 밀도가 낮은 지역을 특별히 고려한 새로운 벤치마크 MR40k에서도 견고한 결과를 달성했습니다. 다중 후보 추론 및 집계 전략을 탐색했지만, SFT 단계에서 이미 상당한 성능 향상을 확인했습니다. 본 연구는 대규모 데이터베이스나 복잡한 파이프라인이 필요한 기존 방법과 비교하여 고품질 감독과 효율적인 SFT의 중요성을 강조하며, MR40k 벤치마크 데이터셋을 공개하여 추가 연구를 장려합니다.