본 논문은 도시 지역 내 정밀한 거리 수준의 위치 파악에 어려움을 겪는 대규모 시각 언어 모델(LVLMs)의 한계를 해결하기 위해, 도시 전체 주소 위치 파악 기능을 LVLMs에 통합하는 방법을 제시합니다. 이를 위해, 미시적 시각적 단서만 제공하는 거리뷰 시각적 질의응답(VQA) 데이터의 한계를 극복하고자 위성 이미지를 거시적 단서로 활용하는 다중 시점 정렬 조정 기법을 제안합니다. 이는 위성 이미지와 거리뷰 이미지를 결합하는 기법과 자동 라벨 생성 메커니즘을 포함합니다. 제안된 모델 AddressVLM은 교차 시점 정렬 조정 및 주소 위치 파악 조정의 두 단계 학습 프로토콜로 구성되며, 피츠버그와 샌프란시스코의 이미지 주소 위치 파악 데이터셋을 기반으로 구축된 두 개의 거리뷰 VQA 데이터셋을 사용하여 평가되었습니다. 실험 결과, AddressVLM은 기존 LVLMs보다 평균 주소 위치 파악 정확도에서 9% 이상, 12% 이상 향상된 성능을 보였습니다.