Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

Referring Expressions as a Lens into Spatial Language Grounding in Vision-Language Models

Created by
  • Haebom
Category
Empty

저자

Akshar Tumu, Varad Shinde, Parisa Kordjamshidi

개요

본 논문은 최신 Vision-language 모델(VLMs)의 공간 추론 능력을 평가하기 위해, 기존의 이미지 캡셔닝 및 시각 질의응답 대신 Referring Expression Comprehension (REC) 태스크를 활용하는 방법을 제안한다. REC 태스크는 객체 탐지의 모호성, 복잡한 공간 표현, 부정 표현 ('not') 등을 포함하는 상황에서 VLMs의 공간 이해 및 기반 능력에 대한 심층적인 분석을 가능하게 한다. Task-specific 아키텍처 및 대규모 VLMs을 사용하여 분석을 수행하고, 각 모델의 강점과 약점을 파악한다. 모델별 상이한 성능과 공간 의미론적 범주(위상적, 방향적, 근접적 등)에 따른 차이를 분석하며, 연구 격차와 향후 연구 방향에 대한 통찰력을 제공한다.

시사점, 한계점

시사점:
Referring Expression Comprehension (REC) 태스크를 통해 VLMs의 공간 추론 능력에 대한 심층적인 분석 가능.
객체 탐지, 복잡한 공간 표현, 부정 표현 등 다양한 상황에서의 VLMs 성능 평가.
Task-specific 아키텍처 및 대규모 VLMs의 강점과 약점 비교 분석.
모델별, 공간 의미론적 범주별 성능 차이 분석을 통한 연구 격차 및 방향 제시.
한계점:
구체적인 모델의 성능 지표나 수치에 대한 상세 정보 부족.
REC 태스크의 특정 데이터셋이나 평가 방식에 대한 정보 부족.
제안된 방법론의 일반화 가능성에 대한 검증 부족.
다양한 공간 의미론적 범주에 대한 상세한 분석 부족.
👍