AddressVLM: Cross-view Alignment Tuning for Image Address Localization using Large Vision-Language Models

작성자

Haebom

카테고리

Empty

저자

Shixiong Xu, Chenghao Zhang, Lubin Fan, Yuan Zhou, Bin Fan, Shiming Xiang, Gaofeng Meng, Jieping Ye

개요

본 논문은 도시 지역 내 정밀한 거리 수준의 위치 파악에 어려움을 겪는 대규모 시각 언어 모델(LVLMs)의 한계를 해결하기 위해, 도시 전체 주소 위치 파악 기능을 LVLMs에 통합하는 방법을 제시합니다. 이를 위해, 미시적 시각적 단서만 제공하는 거리뷰 시각적 질의응답(VQA) 데이터의 한계를 극복하고자 위성 이미지를 거시적 단서로 활용하는 다중 시점 정렬 조정 기법을 제안합니다. 이는 위성 이미지와 거리뷰 이미지를 결합하는 기법과 자동 라벨 생성 메커니즘을 포함합니다. 제안된 모델 AddressVLM은 교차 시점 정렬 조정 및 주소 위치 파악 조정의 두 단계 학습 프로토콜로 구성되며, 피츠버그와 샌프란시스코의 이미지 주소 위치 파악 데이터셋을 기반으로 구축된 두 개의 거리뷰 VQA 데이터셋을 사용하여 평가되었습니다. 실험 결과, AddressVLM은 기존 LVLMs보다 평균 주소 위치 파악 정확도에서 9% 이상, 12% 이상 향상된 성능을 보였습니다.

시사점, 한계점

•

시사점:

◦

도시 지역 내 정밀한 거리 수준 주소 위치 파악을 위한 새로운 접근 방식 제시

◦

위성 이미지와 거리뷰 이미지의 결합을 통한 성능 향상 가능성 입증

◦

AddressVLM 모델의 우수한 성능을 통해 LVLMs의 위치 파악 능력 향상 가능성 제시

◦

새로운 거리뷰 VQA 데이터셋 구축

•

한계점:

◦

제안된 모델의 성능 평가는 특정 도시의 데이터셋에 국한됨. 다양한 도시 및 환경에서의 일반화 성능 검증 필요

◦

자동 라벨 생성 메커니즘의 정확도 및 신뢰도에 대한 추가적인 분석 필요

◦

다른 LVLMs와의 더욱 포괄적인 비교 분석 필요

PDF 보기

Made with Slashpage