Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

GSM-Symbolic: Comprensión de las limitaciones del razonamiento matemático en modelos de lenguaje grandes

Created by
  • Haebom

Autor

Iman Mirzadeh, Keivan Alizadeh, Hooman Shahrokhi, Oncel Tuzel, Samy Bengio, Mehrdad Farajtabar

Describir

Este artículo identifica las limitaciones del benchmark GSM8K, utilizado para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje a gran escala (LLM), y propone un nuevo benchmark, GSM-Symbolic, para mejorarlo. GSM-Symbolic genera diversos problemas matemáticos mediante plantillas simbólicas, superando las limitaciones de los métodos de evaluación existentes y proporcionando métricas más fiables. Nuestra investigación revela que los LLM SOTA presentan diferencias de rendimiento entre las variaciones del mismo problema, y ​​que incluso cambios sencillos en los valores numéricos dentro del problema pueden reducirlo. Además, observamos que el rendimiento se deteriora significativamente a medida que aumenta el número de cláusulas del problema. Esto sugiere que los LLM no realizan un razonamiento lógico auténtico, sino que imitan los pasos de razonamiento de los datos de entrenamiento. Observamos que añadir incluso una sola cláusula irrelevante puede reducir el rendimiento hasta en un 65 %. En conclusión, este estudio proporciona una comprensión más precisa de la capacidad de razonamiento matemático de los LLM.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo método para evaluar de forma más precisa y confiable la capacidad de razonamiento matemático de los LLM a través del benchmark GSM-Symbolic.
Hemos identificado una debilidad en la capacidad de razonamiento matemático del LLM y la atribuimos a una falta de razonamiento lógico verdadero.
Sugerimos nuevas direcciones de investigación para mejorar la capacidad de razonamiento matemático de los LLM.
Limitations:
Aunque el benchmark GSM-Symbolic proporciona una evaluación más completa que GSM8K, es posible que aún no refleje totalmente todos los tipos de problemas de razonamiento matemático.
Las especulaciones sobre la causa de la disminución de la capacidad de razonamiento matemático en los LLM deben verificarse mediante investigaciones adicionales.
Los resultados pueden variar según el tipo y tamaño del modelo LLM utilizado en este estudio.
👍