Cet article interroge la validité des jeux de données de référence utilisés pour évaluer la performance des modèles linguistiques à grande échelle (MLH). Nous présentons un cadre formel permettant de déterminer si les LH peuvent légitimement déduire une compétence de leurs réponses aux questions de référence, et soulignons que les critères utilisés pour évaluer les humains sont également utilisés pour évaluer les LH. Cependant, cela implique que les critères ne sont des outils d'évaluation valides que si les LH comprennent mal les concepts de la même manière que les humains. Dans le cas contraire, la réussite aux tests de référence n'est qu'une « compréhension Potemkinienne » (une compréhension apparemment plausible), une illusion de compréhension créée par des réponses qui ne correspondent pas à la façon dont un humain interpréterait les concepts. Nous présentons deux procédures pour quantifier la présence de la compréhension Potemkinienne, à l'aide de critères spécifiquement conçus pour trois domaines et de procédures générales, et constatons que la compréhension Potemkinienne est répandue dans tous les modèles, tâches et domaines. Nous constatons également que les échecs reflètent des incohérences internes plus profondes dans la représentation des concepts, plutôt que de simples incompréhensions.