Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ÉValuation des grands modèles de langage basés sur le raisonnement et le GPT sur les problèmes des Olympiades de physique : surpasser les performances humaines et implications pour l'évaluation pédagogique

Created by
  • Haebom

Auteur

Paul Tschisgale, Holger Maus, Fabian Kieser, Ben Kroehs, Stefan Petersen, Peter Wulff

Contour

Cet article évalue la capacité des modèles de langage à grande échelle (MLL) à résoudre des problèmes d'enseignement de la physique et examine Takeaways pour l'enseignement et l'évaluation. À l'aide des problèmes des Olympiades allemandes de physique, nous comparons les performances d'un LLM à usage général (GPT-4o) et d'un modèle d'optimisation par inférence (o1-preview) avec celles des participants aux Olympiades. Les résultats montrent que les deux LLM démontrent une capacité de résolution de problèmes de physique de niveau olympique et, en moyenne, surpassent les participants humains. En particulier, o1-preview surpasse à la fois GPT-4o et les participants humains. La technique d'incitation a peu d'effet sur les performances de GPT-4o. Sur la base de ces résultats, nous discutons de l'orientation de la conception de l'évaluation en enseignement de la physique et des implications pédagogiques de l'utilisation du LLM.

Takeaways, Limitations

Takeaways:
Le LLM a démontré une capacité exceptionnelle à résoudre des problèmes de physique difficiles.
Cela soulève la nécessité de modifier les méthodes d’évaluation existantes et de développer de nouvelles méthodes d’évaluation utilisant le LLM.
Facilite la discussion sur les utilisations pédagogiques et les considérations éthiques du LLM.
Nous démontrons que le modèle d’optimisation par inférence surpasse le modèle à usage général.
Limitations:
Cette étude est limitée à un LLM spécifique et à un type de problème spécifique, ce qui limite sa généralisabilité.
Il y a un manque d’analyse approfondie du processus de résolution de problèmes dans le LLM.
Des recherches supplémentaires sont nécessaires sur les implications pédagogiques et éthiques de l’utilisation des LLM.
Des recherches supplémentaires sont nécessaires sur l’efficacité des différentes techniques d’incitation (pour GPT-4o, l’effet des techniques d’incitation était minime).
👍