Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

GSM-Symbolic : Comprendre les limites du raisonnement mathématique dans les grands modèles de langage

Created by
  • Haebom

Auteur

Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

Contour

Cet article identifie les limites du benchmark GSM8K, utilisé pour évaluer la capacité de raisonnement mathématique des modèles de langage à grande échelle (LLM), et propose un nouveau benchmark, GSM-Symbolic, pour l'améliorer. GSM-Symbolic génère divers problèmes mathématiques à l'aide de modèles symboliques, surmontant ainsi les limites des méthodes d'évaluation existantes et fournissant des métriques plus fiables. Nos recherches révèlent que les LLM SOTA présentent des différences de performances selon les variantes d'un même problème, et que même de simples modifications de valeurs numériques au sein du problème peuvent dégrader les performances. De plus, nous constatons que les performances se dégradent significativement à mesure que le nombre de clauses du problème augmente. Cela suggère que les LLM n'effectuent pas un véritable raisonnement logique, mais reproduisent plutôt les étapes de raisonnement des données d'apprentissage. Nous avons constaté que l'ajout d'une seule clause non pertinente peut dégrader les performances jusqu'à 65 %. En conclusion, cette étude permet une compréhension plus fine de la capacité de raisonnement mathématique des LLM.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant d'évaluer de manière plus précise et plus fiable la capacité de raisonnement mathématique des LLM grâce au benchmark GSM-Symbolic.
Nous avons identifié une faiblesse dans la capacité de raisonnement mathématique du LLM et l’attribuons à un manque de véritable raisonnement logique.
Nous proposons de nouvelles directions de recherche pour améliorer la capacité de raisonnement mathématique des étudiants en LLM.
Limitations:
Bien que le benchmark GSM-Symbolic fournisse une évaluation plus complète que GSM8K, il peut ne pas refléter pleinement tous les types de problèmes de raisonnement mathématique.
Les spéculations sur la cause du déclin de la capacité de raisonnement mathématique dans les LLM doivent être vérifiées par des recherches plus approfondies.
Les résultats peuvent varier en fonction du type et de la taille du modèle LLM utilisé dans cette étude.
👍