Cet article présente une évaluation diagnostique utilisant la grammaire de construction (CxG) pour relever les défis posés par l'utilisation de grands ensembles de données de pré-apprentissage : distinguer les compétences linguistiques bien représentées dans l'ensemble de données de pré-apprentissage et la généralisation à des exemples dynamiques et réels moins courants. La CxG fournit un cadre psycholinguistique pour tester la généralisation en reliant explicitement les formes syntaxiques à des significations abstraites et non lexicales. Nous construisons un nouvel ensemble de données d'évaluation d'inférence utilisant des structures de phrases anglaises, qui capitalise sur la capacité des locuteurs à s'abstraire d'exemples courants pour comprendre et générer des exemples créatifs. Cet ensemble de données répond à deux questions centrales : les modèles peuvent-ils « comprendre » le sens de phrases moins fréquemment représentées dans l'ensemble de données de pré-apprentissage, mais intuitives et facilement compréhensibles par les humains ? Ils peuvent-ils utiliser de manière appropriée le sens structurel lorsqu'on leur donne des structures syntaxiquement identiques mais sémantiquement différentes. Les modèles de pointe, dont GPT-o1, affichent des performances inférieures de plus de 40 % à la deuxième tâche, démontrant ainsi leur incapacité à généraliser des formes syntaxiquement identiques à des significations structurelles distinctes, comme le font les humains. Nous mettons à disposition du public le nouvel ensemble de données et les données expérimentales associées (y compris les invites et les réponses du modèle).