Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Putnam-AXIOM: Un punto de referencia funcional y estático para medir el razonamiento matemático de nivel superior en los LLM

Created by
  • Haebom

Autor

Aryan Gulati, Brando Miranda, Eric Chen, Emily Xia, Kai Fronsdal, Bruno Dumont, Elyas Obbad, Sanmi Koyejo

Describir

Este artículo presenta Putnam-AXIOM, un nuevo modelo de referencia para evaluar la capacidad de razonamiento matemático de los modelos de lenguaje a gran escala (LLM). Para abordar el problema de sobreajuste inherente a los modelos de referencia existentes, el artículo presenta Putnam-AXIOM Variations, un conjunto de 100 problemas variantes generados mediante la modificación de variables y constantes, basado en 522 problemas de la prestigiosa Competencia de Matemáticas William Lowell Putnam. Putnam-AXIOM Variations mitiga el sobreajuste al generar un número infinito de nuevos problemas de dificultad similar. Los resultados experimentales muestran que incluso el modelo de mayor rendimiento, o1-preview de OpenAI, alcanzó una precisión del 41,9 % en el conjunto de problemas original, pero su precisión disminuyó en un 19,6 % en el conjunto de variantes. Esto demuestra la tendencia de los LLM a simplemente memorizar los problemas y destaca la necesidad de un modelo de referencia dinámico. Además de medir la precisión, el artículo presenta la métrica Teacher-Forced Accuracy (TFA), que evalúa directamente el proceso de razonamiento. Los datos y el código de evaluación están disponibles públicamente.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo punto de referencia, Putnam-AXIOM, para abordar el problema de sobreajuste de los puntos de referencia existentes.
Proporciona criterios de evaluación objetivos y rigurosos para la capacidad de razonamiento matemático del LLM.
Revelando la tendencia a la memorización simple en LLM y enfatizando la necesidad de una evaluación comparativa dinámica
Se propone la Precisión Forzada por el Profesor (TFA), una nueva métrica para evaluar los procesos de razonamiento.
Proporciona un análisis en profundidad del estado actual de las capacidades de razonamiento matemático de los modelos de lenguaje a gran escala.
Limitations:
Putnam-AXIOM se centra en problemas matemáticos avanzados, por lo que su aplicabilidad para evaluar las habilidades de razonamiento en otras áreas puede ser limitada.
Se necesitan más investigaciones para determinar la generalidad y objetividad del indicador TFA.
La posibilidad de dificultades para generalizar debido a la naturaleza específica del problema de competencia de Putnam.
👍