यह शोधपत्र पुटनाम-एक्सिओम प्रस्तुत करता है, जो बड़े पैमाने के भाषा मॉडलों (एलएलएम) की गणितीय तर्क क्षमता के मूल्यांकन हेतु एक नया मानक है। मौजूदा मानकों में निहित ओवरफिटिंग समस्या के समाधान हेतु, यह शोधपत्र पुटनाम-एक्सिओम वेरिएशन प्रस्तुत करता है, जो प्रतिष्ठित विलियम लोवेल पुटनाम गणित प्रतियोगिता की 522 समस्याओं पर आधारित, चरों और स्थिरांकों को संशोधित करके उत्पन्न 100 वेरिएशन समस्याओं का एक समूह है। पुटनाम-एक्सिओम वेरिएशन समान कठिनाई की अनंत नई समस्याओं को उत्पन्न करके ओवरफिटिंग को कम करता है। प्रायोगिक परिणाम दर्शाते हैं कि सर्वोच्च प्रदर्शन करने वाला मॉडल, ओपनएआई का o1-प्रीव्यू, मूल समस्या समूह पर 41.9% सटीकता प्राप्त कर पाया, लेकिन वेरिएशन समूह पर इसकी सटीकता 19.6% कम हो गई। यह एलएलएम द्वारा समस्याओं को केवल रटने की प्रवृत्ति को दर्शाता है और एक गतिशील मानक की आवश्यकता पर प्रकाश डालता है। सटीकता मापने के अलावा, यह शोधपत्र शिक्षक-प्रबलित सटीकता (TFA) मीट्रिक भी प्रस्तुत करता है, जो तर्क प्रक्रिया का प्रत्यक्ष मूल्यांकन करता है। डेटा और मूल्यांकन कोड सार्वजनिक रूप से उपलब्ध हैं।