Este artículo presenta Jigsaw-Puzzles, un nuevo referente para evaluar la capacidad de razonamiento espacial de los modelos de visión-lenguaje (VLM). Jigsaw-Puzzles consta de 1100 imágenes del mundo real con alta complejidad espacial e incluye cinco tareas que evalúan la percepción espacial, la comprensión de estructuras y el razonamiento. Al compararlo con 24 VLM de última generación, incluso el modelo de mayor rendimiento, Gemini-2.5-Pro, alcanzó una precisión general de tan solo el 77,14 %, y en particular, solo el 30 % en la tarea de generación de secuencias, significativamente inferior al rendimiento superior al 90 % de los participantes humanos. Esto resalta la necesidad de continuar la investigación para mejorar la capacidad de razonamiento espacial de los VLM.