Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation
Created by
Haebom
Category
Empty
저자
Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Filip Janicki, Cristiano Malossi, Konrad Schindler, Roy Assaf
개요
본 논문은 다양한 작업을 수행하도록 지시할 수 있는 기초 모델로 여겨지는 대규모 비전-언어 모델(VLMs)을 사용하여 의미론적 분할 작업을 효과적으로 수행하는 방법에 대해 연구합니다. 다양한 최신 VLMs을 대상으로 텍스트 또는 시각적 프롬프트를 사용하여 분할 성능을 체계적으로 평가하고, 오픈-vocabulary 분할 및 퓨샷 학습에서 영감을 받은 확장 가능한 프롬프팅 기법인 퓨샷 프롬프트 의미론적 분할을 제시합니다. 실험 결과, VLMs는 특정 분할 작업을 위해 훈련된 전문 모델보다 성능이 현저히 떨어지는 것으로 나타났으며(평균 IoU 기준 약 30% 차이), 텍스트 프롬프트와 시각적 프롬프트가 상호 보완적임을 확인했습니다. 이러한 분석 결과를 바탕으로, 텍스트 및 시각적 프롬프트를 결합하는 간단한 훈련 없는 기준 모델인 PromptMatcher를 제안하며, 이는 퓨샷 프롬프트 의미론적 분할에서 최첨단 결과를 달성합니다.
시사점, 한계점
•
시사점:
◦
VLMs을 이용한 의미론적 분할에서 텍스트 프롬프트와 시각적 프롬프트의 상호 보완성을 밝힘.
◦
훈련 없이 텍스트 및 시각적 프롬프트를 결합하는 간단한 방법인 PromptMatcher를 제시하고, 기존 최고 성능의 VLM보다 성능 향상을 달성함.
◦
VLMs의 효과적인 프롬프트 모달리티 예측이 성능 향상에 기여함을 보임.
•
한계점:
◦
VLMs의 성능이 특정 작업을 위해 훈련된 전문 모델에 비해 상당히 낮음 (약 30%의 IoU 차이).
◦
PromptMatcher는 훈련이 필요 없다는 장점이 있지만, 전문 모델에 비해 여전히 성능 격차가 존재할 가능성이 있음.