Este artículo identifica las limitaciones del benchmark GSM8K, utilizado para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje a gran escala (LLM), y propone un nuevo benchmark, GSM-Symbolic, para mejorarlo. GSM-Symbolic genera diversos problemas matemáticos mediante plantillas simbólicas, superando las limitaciones de los métodos de evaluación existentes y proporcionando métricas más fiables. Nuestra investigación revela que los LLM SOTA presentan diferencias de rendimiento entre las variaciones del mismo problema, y que incluso cambios sencillos en los valores numéricos dentro del problema pueden reducirlo. Además, observamos que el rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas del problema. Esto sugiere que los LLM no realizan un razonamiento lógico auténtico, sino que imitan los pasos de razonamiento de los datos de entrenamiento. Observamos que añadir incluso una sola cláusula irrelevante puede reducir el rendimiento hasta en un 65 %. En conclusión, este estudio proporciona una comprensión más precisa de la capacidad de razonamiento matemático de los LLM.