Cet article présente les résultats d'une étude évaluant la précision des modèles linguistiques à grande échelle (MLH), de plus en plus utilisés pour la formation et l'évaluation basées sur l'IA en enseignement des mathématiques. L'étude a évalué la précision des solutions et les erreurs d'inférence à chaque étape pour quatre LH : OpenAI GPT-4o, OpenAI o1, DeepSeek-V3 et DeepSeek-R1, résolvant trois types de problèmes mathématiques : arithmétique, algèbre et théorie des nombres. Nous avons volontairement créé des problèmes complexes, les LHH étant sujets aux erreurs, et les expériences ont été menées en configurations mono-agent et double-agent. Les résultats ont montré que le modèle OpenAI o1, grâce à ses capacités de raisonnement améliorées, a atteint la précision la plus élevée, voire quasi parfaite, pour tous les types de problèmes mathématiques. L'analyse des erreurs a révélé que les erreurs procédurales étaient les plus fréquentes, impactant significativement la performance globale, tandis que les erreurs conceptuelles étaient relativement rares. L'utilisation d'une configuration double-agent a significativement amélioré la performance globale. Ces résultats fournissent des informations exploitables pour améliorer les performances des LLM et mettent en évidence des stratégies efficaces pour intégrer les LLM dans l'enseignement des mathématiques, contribuant ainsi à la précision de la formation et de l'évaluation basées sur l'IA.