यह शोधपत्र स्केलेबल लॉजिकल रीजनिंग (एसएलआर) प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडल (एलएलएम) के व्यवस्थित मूल्यांकन और प्रशिक्षण के लिए एक संपूर्ण ढाँचा है। उपयोगकर्ता के कार्य विनिर्देश के आधार पर, एसएलआर स्वचालित रूप से (I) आगमनात्मक तर्क कार्यों के लिए निर्देशात्मक संकेत, (ii) मॉडल आउटपुट के लिए निष्पादन योग्य सत्यापन प्रोग्राम (सत्यापन योग्य पुरस्कारों के साथ), और (iii) संभावित आधारभूत सत्य नियम उत्पन्न करता है। यह प्रक्रिया पूरी तरह से स्वचालित और स्केलेबल है, इसके लिए किसी मानवीय एनोटेशन की आवश्यकता नहीं होती है, और यह कार्य की कठिनाई पर सटीक नियंत्रण प्रदान करता है। एसएलआर का उपयोग करके, हम एसएलआर-बेंच बनाते हैं, जो एक बेंचमार्क है जिसमें 19,000 संकेत होते हैं, जिन्हें बढ़ती हुई संबंधपरक, अंकगणितीय और पुनरावर्ती जटिलता के 20 पाठ्यक्रम स्तरों में व्यवस्थित किया गया है। बड़े पैमाने के मूल्यांकन दर्शाते हैं कि अत्याधुनिक एलएलएम वाक्य-रचना की दृष्टि से मान्य नियम आसानी से उत्पन्न कर देते हैं, लेकिन अक्सर सटीक तार्किक तर्क करने में विफल रहते हैं। हालाँकि हाल ही में, अनुमान लगाने वाले एलएलएम ने प्रदर्शन में सुधार किया है, लेकिन इनकी परीक्षण-समय गणना लागत बहुत अधिक है, जो 1,000 प्रॉम्प्ट के लिए $300 से भी अधिक है। अंततः, एसएलआर के माध्यम से पाठ्यक्रम सीखने ने लामा-3-8बी की एसएलआर-बेंच सटीकता को दोगुना कर दिया है, जो कि काफी कम गणना लागत पर जेमिनी-फ्लैश-थिंकिंग के बराबर के स्तर तक पहुँच गया है। इसके अलावा, यह अनुमान लगाने की क्षमता विभिन्न मौजूदा बेंचमार्क पर सामान्यीकृत होती है, जो डाउनस्ट्रीम अनुमान के लिए एसएलआर की प्रभावशीलता को उजागर करती है।