Cet article identifie les limites du benchmark GSM8K, utilisé pour évaluer la capacité de raisonnement mathématique des modèles de langage à grande échelle (LLM), et propose un nouveau benchmark, GSM-Symbolic, pour l'améliorer. GSM-Symbolic génère divers problèmes mathématiques à l'aide de modèles symboliques, surmontant ainsi les limites des méthodes d'évaluation existantes et fournissant des métriques plus fiables. Nos recherches révèlent que les LLM SOTA présentent des différences de performances selon les variantes d'un même problème, et que même de simples modifications de valeurs numériques au sein du problème peuvent dégrader les performances. De plus, nous constatons que les performances se dégradent significativement à mesure que le nombre de clauses du problème augmente. Cela suggère que les LLM n'effectuent pas un véritable raisonnement logique, mais reproduisent plutôt les étapes de raisonnement des données d'apprentissage. Nous avons constaté que l'ajout d'une seule clause non pertinente peut dégrader les performances jusqu'à 65 %. En conclusion, cette étude permet une compréhension plus fine de la capacité de raisonnement mathématique des LLM.