Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Errores de cálculo y razonamiento matemático en modelos lingüísticos amplios

Created by
  • Haebom

Autor

Liang Zhang y Edith Aurora Graf

Describir

Este artículo presenta los resultados de un estudio que evalúa la precisión de los modelos de lenguaje a gran escala (LLMs), que se utilizan cada vez más para el entrenamiento y la evaluación basados en IA en educación matemática. El estudio evaluó la precisión de las soluciones y los errores de inferencia en cada etapa para cuatro LLM: OpenAI GPT-4o, OpenAI o1, DeepSeek-V3 y DeepSeek-R1, resolviendo tres tipos de problemas matemáticos: aritmética, álgebra y teoría de números. Creamos intencionalmente problemas desafiantes en los que los LLMs eran propensos a errores, y los experimentos se llevaron a cabo en configuraciones de agente único y de agente dual. Los resultados mostraron que el modelo OpenAI o1, con sus capacidades de razonamiento mejoradas, logró la precisión más alta o casi perfecta en todos los tipos de problemas matemáticos. El análisis de errores reveló que los errores de procedimiento fueron los más frecuentes, lo que impactó significativamente el rendimiento general, mientras que los errores conceptuales fueron relativamente raros. El uso de una configuración de agente dual mejoró significativamente el rendimiento general. Estos resultados brindan información práctica para mejorar el desempeño de los LLM y resaltan estrategias efectivas para integrar los LLM en la educación matemática, contribuyendo a la precisión de la capacitación y la evaluación basadas en IA.

Takeaways, Limitations

Takeaways:
Demostramos que las habilidades de razonamiento mejoradas juegan un papel importante en la mejora de la precisión en la resolución de problemas matemáticos en LLM.
En el proceso de resolución de problemas de matemáticas de LLM, se reveló que los errores de procedimiento eran la principal causa de errores.
Demostramos que el rendimiento de LLM se puede mejorar significativamente utilizando una configuración de agente dual.
Presentamos estrategias prácticas para mejorar la precisión de la educación y la evaluación de las matemáticas basadas en IA.
Limitations:
Los tipos y números de LLM utilizados son limitados.
Puede haber una falta de variedad en la dificultad y los tipos de problemas.
Es necesaria una mayor verificación de la objetividad y fiabilidad del análisis de errores.
Se necesita más investigación sobre su aplicabilidad en entornos de educación matemática del mundo real.
👍