यह शोधपत्र बड़े पैमाने के भाषा मॉडलों (एलएलएम) की सामान्यीकरण क्षमता का मूल्यांकन करने के लिए एक "सामान्यीकरण तनाव परीक्षण" प्रस्तावित करता है। हम विकल्प की लंबाई, प्रश्न के प्रकार और अप्रासंगिक संज्ञा प्रतिस्थापनों में मामूली, नियंत्रित परिवर्तन लागू करके एलएलएम की सामान्यीकरण क्षमता का मूल्यांकन करते हैं। प्रायोगिक परिणामों से पता चलता है कि उच्च बेंचमार्क स्कोर के बावजूद, एलएलएम इन मामूली, विषय-वस्तु-संरक्षण संशोधनों का सामना करने पर महत्वपूर्ण सटीकता ह्रास और अप्रत्याशित पूर्वाग्रह (जैसे, लंबे गलत उत्तरों के लिए वरीयता) प्रदर्शित करते हैं। उदाहरण के लिए, क्वेन 2.5 1.5B का MMLU स्कोर विकल्प की लंबाई बदलने पर 60 से बढ़कर 89 हो जाता है, लेकिन प्रश्न अपरिवर्तित रहने पर 89 से घटकर 36 हो जाता है। यहाँ तक कि GPT-4 भी प्रश्न के प्रकार में परिवर्तन होने पर 25 अंकों की सटीकता हानि का अनुभव करता है, और तीनों संशोधन श्रेणियों में 6 अंकों की कमी होती है। यह विश्लेषण बताता है कि एलएलएम प्रारूप, शाब्दिक भिन्नता और अप्रासंगिक विषय-वस्तु भिन्नता में सामान्यीकरण करने वाले मजबूत, अमूर्त निरूपण बनाने के बजाय सतही संकेतों पर बहुत अधिक निर्भर करते हैं।