यह शोधपत्र सूक्ष्म अवधारणात्मक कार्यों के निष्पादन में बहुविधीय वृहत्-स्तरीय भाषा मॉडल (एमएलएलएम) की सीमाओं पर प्रकाश डालता है। हम एक नया मानक, ह्यूमैनिटी, प्रस्तुत करते हैं, जिसमें इशिहारा-शैली के बिंदु पैटर्न में दो-वर्ण अल्फ़ान्यूमेरिक स्ट्रिंग्स वाली 83,850 छवियाँ शामिल हैं। ह्यूमैनिटी पर नौ अत्याधुनिक एमएलएलएम का मूल्यांकन किया गया और मनुष्यों तथा मौजूदा कंप्यूटर विज़न बेसलाइन मॉडलों की तुलना में इनके प्रदर्शन में उल्लेखनीय गिरावट देखी गई। सर्वश्रेष्ठ प्रदर्शन करने वाले एमएलएलएम ने "आसान" अंक-आधारित कार्य में 33.6% और "कठिन" अल्फ़ान्यूमेरिक कार्य में 3% सटीकता प्राप्त की, जबकि मानव प्रतिभागियों ने लगभग पूर्ण अंक (100% और 95.6%) प्राप्त किए, और एक परिष्कृत ResNet50 मॉडल ने क्रमशः 96.5% और 94.5% सटीकता प्राप्त की। यह वर्तमान एमएलएलएम की दृश्य क्षमताओं में एक महत्वपूर्ण अंतर को उजागर करता है। हम एमएलएलएम में अवधारणात्मक अंतराल में योगदान देने वाले संभावित वास्तुशिल्प और प्रशिक्षण प्रतिमान कारकों का भी विश्लेषण करते हैं, और एमएलएलएम की अवधारणात्मक मजबूती में सुधार करने के लिए आगे के शोध को प्रोत्साहित करने के लिए ह्यूमैनिटी डेटासेट और कोड जारी करते हैं।