Contrairement aux benchmarks d'évaluation de l'IA existants, principalement axés sur la connaissance du contenu, cet article présente un nouveau benchmark, « The Pedagogy Benchmark », permettant d'évaluer la compréhension des connaissances pédagogiques (méthodes et pratiques pédagogiques) par les modèles. Construit à partir de questions issues d'examens de perfectionnement professionnel des enseignants, ce benchmark couvre divers sous-domaines pédagogiques, notamment les stratégies d'enseignement et les méthodes d'évaluation. Nous évaluons 97 modèles et constatons une précision comprise entre 28 % et 89 %. Nous analysons la relation entre coût et précision, ainsi que l'évolution de la frontière optimale de Pareto au fil du temps. Nous proposons un classement en ligne permettant de comparer les performances des modèles et de filtrer les performances selon divers attributs, tels que le coût par jeton et les pondérations ouvertes/fermées. Nous soulignons le potentiel du LLM et de l'IA générative dans l'éducation, ainsi que l'importance des benchmarks pédagogiques, et nous appelons à un déploiement responsable et fondé sur des données probantes du LLM et des outils basés sur le LLM dans les milieux éducatifs.