Cet article propose un « test de stress de généralisation » pour évaluer la capacité de généralisation des modèles linguistiques à grande échelle (MLH). Nous évaluons cette capacité en appliquant des modifications mineures et contrôlées à la longueur des options, au type de question et aux substitutions de noms non pertinents. Les résultats expérimentaux révèlent que malgré des scores de référence élevés, les LH présentent une dégradation significative de la précision et des biais inattendus (par exemple, une préférence pour les réponses incorrectes plus longues) face à ces modifications mineures préservant le contenu. Par exemple, le score MMLU de Qwen 2,5 1,5B passe de 60 à 89 lorsque la longueur des options change, mais diminue de 89 à 36 lorsque la question reste inchangée. Même le GPT-4 subit une perte de précision de 25 points lorsque le type de question change, avec une diminution de 6 points pour les trois catégories de modifications. Cette analyse suggère que les LH s'appuient fortement sur des indices superficiels plutôt que de former des représentations solides et abstraites généralisables au format, aux variations lexicales et aux variations de contenu non pertinentes.