यह शोधपत्र जिगसॉ-पज़ल्स प्रस्तुत करता है, जो दृष्टि-भाषा मॉडल (वीएलएम) की स्थानिक तर्क क्षमताओं के मूल्यांकन हेतु एक नया मानक है। जिगसॉ-पज़ल्स में उच्च स्थानिक जटिलता वाली 1,100 वास्तविक दुनिया की छवियाँ शामिल हैं और इसमें स्थानिक बोध, संरचना बोध और तर्क का आकलन करने वाले पाँच कार्य शामिल हैं। 24 अत्याधुनिक वीएलएम के साथ मूल्यांकन करने पर, सर्वोच्च प्रदर्शन करने वाले मॉडल, जेमिनी-2.5-प्रो ने भी केवल 77.14% समग्र सटीकता प्राप्त की, और विशेष रूप से, अनुक्रम निर्माण कार्य में केवल 30% सटीकता, जो मानव प्रतिभागियों के 90% से अधिक प्रदर्शन से काफी कम है। यह वीएलएम की स्थानिक तर्क क्षमताओं में सुधार के लिए निरंतर शोध की आवश्यकता को रेखांकित करता है।