본 논문은 시각-언어 모델(VLMs)의 공간 추론 능력을 평가하기 위해 새로운 벤치마크인 Jigsaw-Puzzles를 제안합니다. Jigsaw-Puzzles는 공간적 복잡성이 높은 1,100개의 실제 이미지로 구성되며, 공간 지각, 구조 이해, 추론 능력을 평가하는 다섯 가지 과제를 포함합니다. 24개의 최첨단 VLMs를 대상으로 실험한 결과, Gemini-2.5-Pro를 포함한 모든 모델이 인간 수준에 크게 못 미치는 성능을 보였으며, 특히 순서 생성 과제에서 성능 저하가 두드러졌습니다. 이는 VLMs의 공간 추론 능력 향상을 위한 지속적인 연구의 필요성을 시사합니다.