SpotAgent: Grounding Visual Geo-localization in Large Vision-Language Models through Agentic Reasoning

Created by

Haebom

저자

Furong Jia, Ling Dai, Wenjin Deng, Fan Zhang, Chen Hu, Daxin Jiang, Yu Liu

💡 개요

본 논문은 시각 정보가 부족하고 모호한 실제 환경에서의 지리 위치 추정(geo-localization) 문제를 해결하기 위해 SpotAgent라는 새로운 프레임워크를 제안한다. SpotAgent는 대규모 시각-언어 모델(LVLM)이 외부 도구(웹 검색, 지도 등)를 활용하여 시각 단서를 능동적으로 탐색하고 검증하는 에이전트 기반 추론 방식을 도입한다. 이를 통해 기존 모델의 환각(hallucination) 문제를 완화하고 정확하며 검증 가능한 지리 위치 추정 성능을 달성한다.

🔑 시사점 및 한계

•

LVLM의 지리 위치 추정 성능을 실제 환경에 적합하도록 향상시키기 위해 외부 도구 연동 및 에이전트 기반 추론이 효과적임을 보여준다.

•

SFT, 멀티 에이전트 기반 툴 사용 학습, RL 단계를 거치는 3단계 후학습 파이프라인이 모델의 툴 호출 능력과 추론 능력을 체계적으로 발전시킨다.

•

Spatially-Aware Dynamic Filtering 전략은 RL 학습 효율성을 높이고 공간적 어려움에 기반하여 학습 샘플을 우선순위화함으로써 모델 성능 향상에 기여한다.

•

제안된 SpotAgent는 환각을 줄이고 정확한 검증 가능한 결과를 제공하지만, 복잡하고 예상치 못한 시나리오에서의 추가적인 강건성 테스트 및 일반화 능력에 대한 탐구가 필요할 수 있다.

PDF 보기

Made with Slashpage