본 논문은 최신 Vision-language 모델(VLMs)의 공간 추론 능력을 평가하기 위해, 기존의 이미지 캡셔닝 및 시각 질의응답 대신 Referring Expression Comprehension (REC) 태스크를 활용하는 방법을 제안한다. REC 태스크는 객체 탐지의 모호성, 복잡한 공간 표현, 부정 표현 ('not') 등을 포함하는 상황에서 VLMs의 공간 이해 및 기반 능력에 대한 심층적인 분석을 가능하게 한다. Task-specific 아키텍처 및 대규모 VLMs을 사용하여 분석을 수행하고, 각 모델의 강점과 약점을 파악한다. 모델별 상이한 성능과 공간 의미론적 범주(위상적, 방향적, 근접적 등)에 따른 차이를 분석하며, 연구 격차와 향후 연구 방향에 대한 통찰력을 제공한다.