यह शोधपत्र वृहत्-स्तरीय भाषा मॉडलों (एलएलएम) की तार्किक तर्क क्षमता और जटिल अ-एकरस तर्क में उनकी मापनीयता की जाँच करता है। हम बाध्यता संतुष्टि समस्याओं (सीएसपी) से व्युत्पन्न तार्किक जालक पहेलियों पर एलएलएम अनुमान के प्रदर्शन का मूल्यांकन करने के लिए ज़ेब्रालॉजिक नामक एक व्यापक मूल्यांकन ढाँचा प्रस्तुत करते हैं। ज़ेब्रालॉजिक नियंत्रणीय और परिमाणात्मक जटिलता वाली पहेलियाँ उत्पन्न करता है, जिससे लामा, ओ1 मॉडल और डीपसीक-आर1 जैसे मॉडलों की मापनीयता सीमाओं का व्यवस्थित अध्ययन संभव होता है। यह विभिन्न खोज स्थान जटिलताओं और विभिन्न तार्किक बाधाओं सहित, बढ़ते कठिनाई स्तरों पर अनुमान के मूल्यांकन के लिए एक संरचित वातावरण प्रदान करता है। प्रायोगिक परिणाम दर्शाते हैं कि समस्या की बढ़ती जटिलता (जटिलता का अभिशाप) के साथ सटीकता में उल्लेखनीय कमी आती है। ये सीमाएँ बड़े मॉडलों और बढ़े हुए अनुमान समय गणनाओं के साथ भी बनी रहती हैं, जो वर्तमान एलएलएम अनुमान क्षमता में अंतर्निहित सीमाओं का संकेत देती हैं। हम तार्किक तर्क को बेहतर बनाने की रणनीतियों का भी पता लगाते हैं, जिनमें सर्वश्रेष्ठ-एन नमूनाकरण, बैकट्रैकिंग तंत्र और स्व-सत्यापन संकेत शामिल हैं।