Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Más rentabilidad por cada dólar invertido: modelado de recompensas de procesos con incertidumbre impulsada por la entropía

작성자
  • Haebom

Autor

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Wu Ning, Huacong Xu, Qian Chen, Yuxian Wang, Peishuo Su, Mofan Peng, Zijie Chen, Yitong Li

Describir

El Modelo de Recompensa de Procesos con Incertidumbre Impulsada por Entropía (EDU-PRM) es un novedoso marco de entrenamiento para el modelado de recompensas de procesos impulsado por entropía que permite la segmentación dinámica y ajustada a la incertidumbre de pasos de inferencia complejos sin necesidad de anotación manual de pasos. A diferencia de los Modelos de Recompensa de Procesos (PRM) existentes, que se basan en la segmentación estática y el etiquetado manual, EDU-PRM establece automáticamente los límites de paso en tokens con alta entropía de predicción. En el conjunto de pruebas MATH, EDU-PRM alcanza una precisión del 65,5 %, superando a potentes modelos de referencia de PRM públicos como Math-Shepherd PRM (61,7 %) y Omega PRM (62,4 %). Además, la sustitución del muestreo HT por el muestreo EDU mejora tanto la precisión como la eficiencia. Con N=64, la precisión aumenta del 64,7 % (Muestra HT + BON) al 67,3 % (Muestra EDU + BON), mientras que el número de tokens generados disminuye un 47 %, lo que demuestra un excelente equilibrio entre precisión y coste. En el conjunto de pruebas ProcessBench, EDU-PRM alcanzó una precisión de vanguardia del 88,4 % utilizando menos del 1,5 % de los datos de entrenamiento de Qwen2.5-Math-PRM-72B, superando así el récord anterior del 87,8 %. En resumen, EDU-PRM proporciona un paradigma escalable y eficiente en anotaciones para la supervisión de procesos en inferencia matemática, allanando el camino para una inferencia compleja y eficiente en matemáticas.

Takeaways, Limitations

Takeaways:
Mejora significativamente la eficiencia del modelado de compensación de procesos al eliminar la necesidad de anotación manual.
La segmentación dinámica de pasos basada en entropía permite un modelado más preciso de procesos de inferencia complejos.
Logramos resultados que superaron el desempeño de última generación anterior en los conjuntos de pruebas MATH y ProcessBench.
El muestreo de EDU mejora la eficiencia al reducir la cantidad de tokens generados y al mismo tiempo mejorar la precisión.
En el campo del razonamiento matemático, presentamos un nuevo paradigma para el razonamiento complejo eficiente.
Limitations:
El rendimiento de EDU-PRM se basa en resultados de conjuntos de datos específicos (MATH, ProcessBench), y el rendimiento de generalización en otros conjuntos de datos o tipos de problemas requiere más investigación.
La segmentación por pasos basada en la entropía no siempre garantiza una segmentación óptima, y ​​puede ser necesario investigar técnicas de segmentación por pasos más sofisticadas.
Dado que en este artículo se utilizó un modelo específico (Qwen2.5-Math-PRM-72B), se necesita más investigación sobre la aplicabilidad y los cambios de rendimiento de otros modelos.
👍