Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Show or Tell? Effectively prompting Vision-Language Models for semantic segmentation

Created by
  • Haebom
Category
Empty

저자

Niccolo Avogaro, Thomas Frick, Mattia Rigotti, Andrea Bartezzaghi, Filip Janicki, Cristiano Malossi, Konrad Schindler, Roy Assaf

개요

본 논문은 다양한 작업을 수행하도록 지시할 수 있는 기초 모델로 여겨지는 대규모 비전-언어 모델(VLMs)을 사용하여 의미론적 분할 작업을 효과적으로 수행하는 방법에 대해 연구합니다. 다양한 최신 VLMs을 대상으로 텍스트 또는 시각적 프롬프트를 사용하여 분할 성능을 체계적으로 평가하고, 오픈-vocabulary 분할 및 퓨샷 학습에서 영감을 받은 확장 가능한 프롬프팅 기법인 퓨샷 프롬프트 의미론적 분할을 제시합니다. 실험 결과, VLMs는 특정 분할 작업을 위해 훈련된 전문 모델보다 성능이 현저히 떨어지는 것으로 나타났으며(평균 IoU 기준 약 30% 차이), 텍스트 프롬프트와 시각적 프롬프트가 상호 보완적임을 확인했습니다. 이러한 분석 결과를 바탕으로, 텍스트 및 시각적 프롬프트를 결합하는 간단한 훈련 없는 기준 모델인 PromptMatcher를 제안하며, 이는 퓨샷 프롬프트 의미론적 분할에서 최첨단 결과를 달성합니다.

시사점, 한계점

시사점:
VLMs을 이용한 의미론적 분할에서 텍스트 프롬프트와 시각적 프롬프트의 상호 보완성을 밝힘.
훈련 없이 텍스트 및 시각적 프롬프트를 결합하는 간단한 방법인 PromptMatcher를 제시하고, 기존 최고 성능의 VLM보다 성능 향상을 달성함.
VLMs의 효과적인 프롬프트 모달리티 예측이 성능 향상에 기여함을 보임.
한계점:
VLMs의 성능이 특정 작업을 위해 훈련된 전문 모델에 비해 상당히 낮음 (약 30%의 IoU 차이).
PromptMatcher는 훈련이 필요 없다는 장점이 있지만, 전문 모델에 비해 여전히 성능 격차가 존재할 가능성이 있음.
제시된 방법의 일반화 성능에 대한 추가적인 연구가 필요함.
👍