Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Un marco de construcción de datos de entrenamiento eficiente y preciso para el modelo de recompensa supervisado por procesos en el razonamiento matemático

Created by
  • Haebom

Autor

Wei Sun, Qianlong Du, Fuwei Cui, Jiajun Zhang

Describir

En este artículo, proponemos EpicPRM, un nuevo marco de trabajo para mejorar la capacidad de inferencia matemática de los modelos de lenguaje a gran escala (LLM). Los métodos existentes de generación de datos para el aprendizaje de modelos de recompensa supervisados por procesos (PRM) presentan limitaciones, como su alto coste o baja calidad, como la anotación manual o la estimación de Monte Carlo paso a paso. EpicPRM cuantifica la contribución de cada paso intermedio de inferencia y lo anota, mejorando la precisión y la eficiencia de la anotación mediante un algoritmo de búsqueda binaria adaptativa. Gracias a esto, construimos eficientemente un conjunto de datos de aprendizaje supervisado por procesos de alta calidad, Epic50k, compuesto por 50 000 pasos intermedios anotados. Los PRM entrenados con Epic50k muestran un rendimiento significativamente mejor que aquellos que utilizan conjuntos de datos públicos existentes. Epic50k está disponible en GitHub.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo marco (EpicPRM) que mejora eficazmente la capacidad de razonamiento matemático en LLM
Creación y publicación de un conjunto de datos de aprendizaje supervisado de procesos de alta calidad (Epic50k)
Presentamos un método de generación de anotaciones más eficiente y preciso que los métodos existentes
PRM con Epic50k supera los métodos existentes
Limitations:
Se necesita más investigación para determinar si el rendimiento de EpicPRM se generaliza a otros tipos de problemas de inferencia o a otras arquitecturas LLM.
El tamaño del conjunto de datos Epic50k puede ser relativamente pequeño en comparación con conjuntos de datos más grandes.
Se necesita más investigación sobre la configuración óptima de los parámetros de los algoritmos de búsqueda binaria adaptativa.
👍