Este artículo presenta Putnam-AXIOM, un nuevo modelo de referencia para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje a gran escala (LLM). Para abordar el problema de sobreajuste inherente a los modelos de referencia existentes, el artículo presenta Putnam-AXIOM Variations, un conjunto de 100 problemas variantes generados mediante la modificación de variables y constantes, basado en 522 problemas de la prestigiosa Competencia de Matemáticas William Lowell Putnam. Putnam-AXIOM Variations mitiga el sobreajuste al generar un número infinito de nuevos problemas de dificultad similar. Los resultados experimentales muestran que incluso el modelo de mayor rendimiento, o1-preview de OpenAI, alcanzó una precisión del 41,9 % en el conjunto de problemas original, pero su precisión disminuyó en un 19,6 % en el conjunto de variantes. Esto demuestra la tendencia de los LLM a simplemente memorizar los problemas y destaca la necesidad de un modelo de referencia dinámico. Además de medir la precisión, el artículo presenta la métrica Teacher-Forced Accuracy (TFA), que evalúa directamente el proceso de razonamiento. Los datos y el código de evaluación están disponibles públicamente.