Cet article interroge la validité des jeux de données de référence utilisés pour évaluer la performance des modèles linguistiques à grande échelle (MLL). Est-il justifié pour les LLM de déduire une compétence de leurs réponses aux questions de référence ? L'article présente un cadre formel pour répondre à cette question, soulignant que les mêmes critères de référence (par exemple, l'examen AP) sont utilisés pour les LLM et les humains. Cependant, cela implique que les critères de référence ne sont valables que si les LLM comprennent mal les concepts de la même manière que les humains. Dans le cas contraire, la réussite aux critères de référence ne démontre qu'une « compréhension Potemkinienne » (une compréhension superficielle). L'article présente deux procédures pour quantifier la présence de la compréhension Potemkinienne (l'une utilisant un critère de référence spécialement conçu, l'autre fournissant des bornes inférieures), et constate que la compréhension Potemkinienne est répandue dans tous les modèles, tâches et domaines. Il montre également que ces échecs ne sont pas de simples erreurs, mais reflètent des incohérences internes plus profondes dans les représentations conceptuelles.