본 논문은 시각 언어 모델(VLMs)의 시각 공간적 이해 능력을 평가하기 위해 가상 객체를 활용하는 새로운 방법론을 제안합니다. 기존 VLMs는 이미지에 나타난 객체에 대한 캡션 생성 등의 작업은 잘 수행하지만, 이미지에 없는 가상 객체를 고려하여 장면에 대한 공간적 관계를 추론하는 능력은 부족하다는 점을 지적합니다. 예를 들어, 나무 아래 서 있는 사람 이미지에 "연이 나무에 걸렸다"라는 가상 객체 정보를 추가하여 VLMs의 장면 이해 능력을 평가하는 방식을 제시하고, 최신 VLMs의 성능을 체계적으로 평가하여 그 한계를 밝힙니다.