यह शोधपत्र अत्याधुनिक बड़े पैमाने के भाषा मॉडल (एलएलएम) की पूर्वानुमान क्षमता का मूल्यांकन करता है। मेटाकुलस के 464 पूर्वानुमान प्रश्नों का उपयोग करते हुए, हमने एलएलएम के प्रदर्शन की तुलना अग्रणी पूर्वानुमानकर्ताओं और विशेषज्ञ समूहों के प्रदर्शन से की। परिणाम दर्शाते हैं कि अत्याधुनिक मॉडल मानव समूहों की तुलना में बेहतर ब्रियर स्कोर प्राप्त करते हैं, फिर भी वे विशेषज्ञ समूहों से काफी पीछे हैं। हालाँकि एलएलएम पिछले वर्ष तक मानवीय सटीकता तक पहुँचने में सक्षम नहीं थे, हाल के मॉडल महत्वपूर्ण प्रगति प्रदर्शित करते हैं।