यह शोधपत्र अत्याधुनिक बड़े पैमाने के भाषा मॉडल (एलएलएम) की पूर्वानुमान क्षमता का मूल्यांकन करता है। मेटाकुलस के 464 पूर्वानुमान प्रश्नों का उपयोग करते हुए, हमने एलएलएम के प्रदर्शन की तुलना मानव सुपर-प्रेडिक्टर्स से की। परिणाम दर्शाते हैं कि अत्याधुनिक मॉडल मानव आबादी की तुलना में बेहतर ब्रियर स्कोर प्राप्त करते हैं, फिर भी वे सुपर-प्रेडिक्टर्स से काफ़ी पीछे हैं। इससे पता चलता है कि एलएलएम विभिन्न कार्यों में उल्लेखनीय प्रदर्शन करते हुए भी, उनकी पूर्वानुमान क्षमता का अभी तक पर्याप्त अध्ययन नहीं किया गया है।