Cet article présente Putnam-AXIOM, un nouveau benchmark permettant d'évaluer la capacité de raisonnement mathématique des modèles de langage à grande échelle (MLL). Pour résoudre le problème de surapprentissage inhérent aux benchmarks existants, l'article présente Putnam-AXIOM Variations, un ensemble de 100 problèmes variants générés par la modification de variables et de constantes, basé sur 522 problèmes du prestigieux concours de mathématiques William Lowell Putnam. Putnam-AXIOM Variations atténue le surapprentissage en générant un nombre infini de nouveaux problèmes de difficulté similaire. Les résultats expérimentaux montrent que même le modèle le plus performant, o1-preview d'OpenAI, a atteint une précision de 41,9 % sur l'ensemble de problèmes initial, mais que sa précision a diminué de 19,6 % sur l'ensemble de variantes. Cela démontre la tendance des LLM à simplement mémoriser les problèmes et souligne la nécessité d'un benchmark dynamique. Outre la mesure de la précision, l'article présente la métrique Teacher-Forced Accuracy (TFA), qui évalue directement le processus de raisonnement. Les données et le code d'évaluation sont accessibles au public.