Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Aprovechamiento de problemas matemáticos de nivel olímpico en línea para la formación de LLM y la evaluación de resistencia a la contaminación

Created by
  • Haebom

Autor

Sadegh Mahdavi, Muchen Li, Kaiwen Liu, Christos Thrampoulidis, Leonid Sigal, Renjie Liao

Describir

En este artículo, presentamos un estudio sobre la mejora de la capacidad de razonamiento matemático de los modelos de lenguaje a gran escala (LLM) mediante la creación del conjunto de datos AoPS-Instruct, compuesto por más de 600.000 pares de preguntas y respuestas de alta calidad, utilizando un flujo de trabajo automatizado del foro Art of Problem Solving (AoPS). Demostramos que el ajuste preciso de los LLM con el conjunto de datos AoPS-Instruct mejora su capacidad de inferencia en diversos puntos de referencia. Además, desarrollamos un nuevo punto de referencia resistente a la contaminación, LiveAoPSBench, basado en los datos más recientes del foro AoPS para evaluar el rendimiento de los LLM. Utilizando LiveAoPSBench, observamos una degradación del rendimiento de los LLM con el tiempo, lo que sugiere que el éxito en los puntos de referencia existentes podría deberse a la exposición a datos de preentrenamiento. Este estudio presenta un enfoque escalable para generar y mantener conjuntos de datos a gran escala y de alta calidad para el razonamiento matemático avanzado, y proporciona información valiosa sobre las capacidades y limitaciones de los LLM en este campo.

Takeaways, Limitations

Takeaways:
Construcción de un conjunto de datos de resolución de problemas matemáticos de gran escala y alta calidad, AoPS-Instruct, utilizando datos del foro de AoPS.
Mejora de la capacidad de razonamiento matemático confirmada mediante el ajuste fino de LLM utilizando AoPS-Instruct.
Desarrollo de LiveAoPSBench, un punto de referencia que cambia con el tiempo, y descubrimiento de la degradación del rendimiento de LLM.
Una nueva perspectiva para evaluar la verdadera capacidad de razonamiento del LLM.
Presenta un método para crear y mantener conjuntos de datos escalables.
Limitations:
Se debe tener en cuenta el sesgo en los datos del foro de AoPS.
LiveAoPSBench requiere mantenimiento y conservación constantes.
Se necesitan más investigaciones para determinar las causas del deterioro de la capacidad de razonamiento en los LLM.
Existen limitaciones a la generalización utilizando únicamente datos del foro de AoPS.
👍