Cet article évalue la capacité des modèles de langage à grande échelle (MLL) à résoudre des problèmes d'enseignement de la physique et examine Takeaways pour l'enseignement et l'évaluation. À l'aide des problèmes des Olympiades allemandes de physique, nous comparons les performances d'un LLM à usage général (GPT-4o) et d'un modèle d'optimisation par inférence (o1-preview) avec celles des participants aux Olympiades. Les résultats montrent que les deux LLM démontrent une capacité de résolution de problèmes de physique de niveau olympique et, en moyenne, surpassent les participants humains. En particulier, o1-preview surpasse à la fois GPT-4o et les participants humains. La technique d'incitation a peu d'effet sur les performances de GPT-4o. Sur la base de ces résultats, nous discutons de l'orientation de la conception de l'évaluation en enseignement de la physique et des implications pédagogiques de l'utilisation du LLM.