Dans cet article, nous présentons une étude visant à améliorer la capacité de raisonnement mathématique des modèles de langage à grande échelle (MLL) en construisant le jeu de données AoPS-Instruct, composé de plus de 600 000 paires questions-réponses de haute qualité, à l'aide d'un pipeline automatisé issu du forum Art of Problem Solving (AoPS). Nous démontrons que l'optimisation des LLM avec le jeu de données AoPS-Instruct améliore leur capacité d'inférence sur divers benchmarks. De plus, nous développons un nouveau benchmark résistant à la contamination, LiveAoPSBench, basé sur les dernières données du forum AoPS pour évaluer les performances des LLM. Grâce à LiveAoPSBench, nous observons une dégradation des performances des LLM au fil du temps, suggérant que le succès sur les benchmarks existants pourrait être dû à l'exposition à des données de pré-entraînement. Cette étude présente une approche évolutive pour générer et maintenir des jeux de données à grande échelle et de haute qualité pour le raisonnement mathématique avancé, et fournit des informations précieuses sur les capacités et les limites des LLM dans ce domaine.