Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Analyse comparative des connaissances pédagogiques des grands modèles linguistiques

Created by
  • Haebom

Auteur

Maxime Lelievre , Amy Waldock, Meng Liu, Natalia Vald es Aspillaga, Alasdair Mackintosh, Mar ia Jos et Ogando Portela, Jared Lee, Paul Atherton, Robin AA Ince, Oliver GB Garrod

Contour

Contrairement aux benchmarks d'évaluation de l'IA existants, principalement axés sur la connaissance du contenu, cet article présente un nouveau benchmark, « The Pedagogy Benchmark », permettant d'évaluer la compréhension des connaissances pédagogiques (méthodes et pratiques pédagogiques) par les modèles. Construit à partir de questions issues d'examens de perfectionnement professionnel des enseignants, ce benchmark couvre divers sous-domaines pédagogiques, notamment les stratégies d'enseignement et les méthodes d'évaluation. Nous évaluons 97 modèles et constatons une précision comprise entre 28 % et 89 %. Nous analysons la relation entre coût et précision, ainsi que l'évolution de la frontière optimale de Pareto au fil du temps. Nous proposons un classement en ligne permettant de comparer les performances des modèles et de filtrer les performances selon divers attributs, tels que le coût par jeton et les pondérations ouvertes/fermées. Nous soulignons le potentiel du LLM et de l'IA générative dans l'éducation, ainsi que l'importance des benchmarks pédagogiques, et nous appelons à un déploiement responsable et fondé sur des données probantes du LLM et des outils basés sur le LLM dans les milieux éducatifs.

Takeaways, Limitations_

Takeaways:
Présentation d’une nouvelle référence pour évaluer l’utilisabilité des LLM dans le secteur de l’éducation.
Capacité à évaluer les connaissances pédagogiques, les connaissances sur les besoins éducatifs spéciaux et les handicaps (SEND).
Fournit un classement en ligne pour comparer et analyser les performances du modèle.
Fournir des informations essentielles pour le développement du LLM et les décisions en matière de politique éducative.
Proposer des orientations pour un développement efficace de modèles grâce à une analyse de corrélation entre le coût et la précision.
Limitations:
Il peut y avoir des différences par rapport à l’environnement de formation réel, car les questions du benchmark proviennent de tests de développement professionnel.
Le nombre de modèles évalués peut être limité à 97.
Il est nécessaire d’examiner plus en détail l’exhaustivité des critères de référence et la mesure dans laquelle ils reflètent la diversité des contextes éducatifs.
Limites des indicateurs d’évaluation et nécessité d’amélioration.
👍