Este artículo presenta los resultados de un estudio que evalúa la precisión de los modelos de lenguaje a gran escala (LLMs), que se utilizan cada vez más para el entrenamiento y la evaluación basados en IA en educación matemática. El estudio evaluó la precisión de las soluciones y los errores de inferencia en cada etapa para cuatro LLM: OpenAI GPT-4o, OpenAI o1, DeepSeek-V3 y DeepSeek-R1, resolviendo tres tipos de problemas matemáticos: aritmética, álgebra y teoría de números. Creamos intencionalmente problemas desafiantes en los que los LLMs eran propensos a errores, y los experimentos se llevaron a cabo en configuraciones de agente único y de agente dual. Los resultados mostraron que el modelo OpenAI o1, con sus capacidades de razonamiento mejoradas, logró la precisión más alta o casi perfecta en todos los tipos de problemas matemáticos. El análisis de errores reveló que los errores de procedimiento fueron los más frecuentes, lo que impactó significativamente el rendimiento general, mientras que los errores conceptuales fueron relativamente raros. El uso de una configuración de agente dual mejoró significativamente el rendimiento general. Estos resultados brindan información práctica para mejorar el desempeño de los LLM y resaltan estrategias efectivas para integrar los LLM en la educación matemática, contribuyendo a la precisión de la capacitación y la evaluación basadas en IA.