यह शोधपत्र बड़े पैमाने के भाषा मॉडल (एलएलएम) की भावना पहचान क्षमताओं का अन्वेषण करता है। पिछले अध्ययनों के विपरीत, जो भावनाओं को सीमित श्रेणियों में वर्गीकृत करते हैं, हम एक नया बेंचमार्क डेटासेट, एक्सप्रेस, प्रस्तुत करते हैं, जिसमें रेडिट समुदाय से एकत्रित 251 सूक्ष्म-स्तरीय स्व-रिपोर्ट किए गए भावना लेबल शामिल हैं। हम विभिन्न प्रॉम्प्ट सेटिंग्स के तहत कई एलएलएम का व्यवस्थित रूप से मूल्यांकन करते हैं और मानवीय स्व-रिपोर्ट के अनुरूप भावनाओं का सटीक अनुमान लगाने में उनकी कठिनाई को प्रदर्शित करते हैं। गुणात्मक विश्लेषण से पता चलता है कि कुछ एलएलएम मौजूदा भावना सिद्धांत और परिभाषाओं के अनुरूप भावना शब्द उत्पन्न करते हैं, लेकिन वे मानवीय स्व-रिपोर्ट की तरह प्रभावी रूप से प्रासंगिक संकेतों को पकड़ने में विफल रहते हैं। इसलिए, यह अध्ययन सूक्ष्म-स्तरीय भावना संगति में एलएलएम की सीमाओं को उजागर करता है और प्रासंगिक समझ को बेहतर बनाने के उद्देश्य से भविष्य के शोध के लिए अंतर्दृष्टि प्रदान करता है।