Cet article aborde les limites des modèles linguistiques multimodaux à grande échelle (MLLM) dans la réalisation de tâches perceptuelles subtiles. Nous présentons le benchmark HueManity, composé de 83 850 images contenant des chaînes alphanumériques suivant des motifs de points de type Ishihara, afin d'évaluer les capacités perceptuelles visuelles des MLLM. Neuf MLLM de pointe sont évalués sur HueManity et montrent qu'ils sont nettement moins performants que les modèles de référence de vision par ordinateur existants et humains. Le MLLM le plus performant atteint une précision de 33,6 % pour la tâche « facile » basée sur les chiffres et de 3 % pour la tâche « difficile » alphanumérique, tandis que les participants humains obtiennent des scores quasi parfaits (100 % et 95,6 %), et un modèle ResNet50 affiné atteint une précision de 96,5 % et 94,5 %. Cela met en évidence un écart important dans les capacités visuelles des MLLM actuels. Dans cet article, nous analysons plus en détail les facteurs potentiels de paradigme architectural et de formation contribuant à l'écart perceptuel dans les MLLM, et nous rendons l'ensemble de données et le code HueManity publics pour de futures recherches.