Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Erreurs de calcul et de raisonnement mathématiques par grands modèles de langage

Created by
  • Haebom

Auteur

Liang Zhang, Edith Aurora Graf

Contour

Cet article présente les résultats d'une étude évaluant la précision des modèles linguistiques à grande échelle (MLH), de plus en plus utilisés pour la formation et l'évaluation basées sur l'IA en enseignement des mathématiques. L'étude a évalué la précision des solutions et les erreurs d'inférence à chaque étape pour quatre LH : OpenAI GPT-4o, OpenAI o1, DeepSeek-V3 et DeepSeek-R1, résolvant trois types de problèmes mathématiques : arithmétique, algèbre et théorie des nombres. Nous avons volontairement créé des problèmes complexes, les LHH étant sujets aux erreurs, et les expériences ont été menées en configurations mono-agent et double-agent. Les résultats ont montré que le modèle OpenAI o1, grâce à ses capacités de raisonnement améliorées, a atteint la précision la plus élevée, voire quasi parfaite, pour tous les types de problèmes mathématiques. L'analyse des erreurs a révélé que les erreurs procédurales étaient les plus fréquentes, impactant significativement la performance globale, tandis que les erreurs conceptuelles étaient relativement rares. L'utilisation d'une configuration double-agent a significativement amélioré la performance globale. Ces résultats fournissent des informations exploitables pour améliorer les performances des LLM et mettent en évidence des stratégies efficaces pour intégrer les LLM dans l'enseignement des mathématiques, contribuant ainsi à la précision de la formation et de l'évaluation basées sur l'IA.

Takeaways, Limitations

Takeaways:
Nous démontrons que des capacités de raisonnement améliorées jouent un rôle important dans l’amélioration de la précision de la résolution des problèmes mathématiques en LLM.
Dans le processus de résolution de problèmes mathématiques du LLM, les erreurs de procédure se sont révélées être la principale cause d’erreurs.
Nous montrons que les performances de LLM peuvent être considérablement améliorées en utilisant une configuration à double agent.
Présentation de stratégies concrètes pour améliorer la précision de l’enseignement et de l’évaluation des mathématiques basés sur l’IA.
Limitations:
Les types et le nombre de LLM utilisés sont limités.
Il peut y avoir un manque de variété dans la difficulté et les types de problèmes.
Une vérification supplémentaire de l’objectivité et de la fiabilité de l’analyse des erreurs est nécessaire.
Des recherches supplémentaires sont nécessaires sur son applicabilité dans les environnements d’enseignement des mathématiques du monde réel.
👍