Cet article présente Jigsaw-Puzzles, une nouvelle référence pour l'évaluation des capacités de raisonnement spatial des modèles vision-langage (VLM). Jigsaw-Puzzles se compose de 1 100 images réelles d'une grande complexité spatiale et comprend cinq tâches évaluant la perception spatiale, la compréhension des structures et le raisonnement. Comparé à 24 VLM de pointe, même le modèle le plus performant, Gemini-2.5-Pro, n'a atteint qu'une précision globale de 77,14 %, et en particulier de 30 % dans la tâche de génération de séquences, un résultat nettement inférieur aux plus de 90 % obtenus par les participants humains. Cela souligne la nécessité de poursuivre les recherches pour améliorer les capacités de raisonnement spatial des VLM.