यह पत्र बड़े पैमाने पर भाषा मॉडल (एलएलएम) की गणितीय तर्क क्षमता का मूल्यांकन करने के लिए उपयोग किए जाने वाले जीएसएम 8 के बेंचमार्क की सीमाओं की पहचान करता है, और इसे बेहतर बनाने के लिए एक नया बेंचमार्क, जीएसएम-सिम्बोलिक प्रस्तावित करता है। जीएसएम-सिम्बोलिक, प्रतीकात्मक टेम्पलेट्स का उपयोग करके विविध गणितीय समस्याएं उत्पन्न करता है, मौजूदा मूल्यांकन विधियों की सीमाओं पर काबू पाता है और अधिक विश्वसनीय मैट्रिक्स प्रदान करता है। हमारे शोध से पता चलता है कि एसओटीए एलएलएम एक ही समस्या के विभिन्न रूपों में प्रदर्शन अंतर प्रदर्शित करते हैं, और समस्या के भीतर संख्यात्मक मूल्यों में सरल परिवर्तन भी प्रदर्शन को कम कर सकते हैं। इसके अलावा, हम पाते हैं कि समस्या में खंडों की संख्या बढ़ने पर प्रदर्शन काफी बिगड़ जाता है। इससे पता चलता है कि एलएलएम सही तार्किक तर्क नहीं करते हैं