En este artículo, presentamos un estudio sobre la mejora de la capacidad de razonamiento matemático de los modelos de lenguaje a gran escala (LLM) mediante la creación del conjunto de datos AoPS-Instruct, compuesto por más de 600.000 pares de preguntas y respuestas de alta calidad, utilizando un flujo de trabajo automatizado del foro Art of Problem Solving (AoPS). Demostramos que el ajuste preciso de los LLM con el conjunto de datos AoPS-Instruct mejora su capacidad de inferencia en diversos puntos de referencia. Además, desarrollamos un nuevo punto de referencia resistente a la contaminación, LiveAoPSBench, basado en los datos más recientes del foro AoPS para evaluar el rendimiento de los LLM. Utilizando LiveAoPSBench, observamos una degradación del rendimiento de los LLM con el tiempo, lo que sugiere que el éxito en los puntos de referencia existentes podría deberse a la exposición a datos de preentrenamiento. Este estudio presenta un enfoque escalable para generar y mantener conjuntos de datos a gran escala y de alta calidad para el razonamiento matemático avanzado, y proporciona información valiosa sobre las capacidades y limitaciones de los LLM en este campo.