RSVG-ZeroOV: Exploring a Training-Free Framework for Zero-Shot Open-Vocabulary Visual Grounding in Remote Sensing Images
Created by
Haebom
Category
Empty
저자
Ke Li, Di Wang, Ting Wang, Fuyu Dong, Yiming Zhang, Luyao Zhang, Xiangyu Wang, Shaofeng Li, Quan Wang
개요
본 논문은 자유 형식의 자연어 표현을 기반으로 원격 감지 이미지에서 객체를 localization하는 것을 목표로 하는 원격 감지 visual grounding (RSVG)에 대한 연구를 제시합니다. 기존의 closed-set vocabularies의 제한점을 극복하고, open-world 시나리오에서의 적용 가능성을 높이기 위해, 본 연구는 frozen generic foundation 모델을 활용하는 training-free framework인 RSVG-ZeroOV를 제안합니다. RSVG-ZeroOV는 vision-language model (VLM)을 이용한 cross-attention map 생성, diffusion model (DM)을 이용한 객체의 구조 및 형태 정보 보완, 그리고 attention evolution module을 통한 불필요한 activation 억제를 통해 zero-shot open-vocabulary RSVG를 수행합니다.
시사점, 한계점
•
시사점:
◦
task-specific training 없이 효율적이고 확장 가능한 솔루션을 제공합니다.
◦
기존의 weakly-supervised 및 zero-shot 방법들을 능가하는 성능을 보입니다.
◦
open-vocabulary RSVG 문제를 해결하기 위해 frozen generic foundation 모델의 잠재력을 탐구합니다.