El Modelo de Recompensa de Procesos con Incertidumbre Impulsada por Entropía (EDU-PRM) es un novedoso marco de entrenamiento para el modelado de recompensas de procesos impulsado por entropía que permite la segmentación dinámica y ajustada a la incertidumbre de pasos de inferencia complejos sin necesidad de anotación manual de pasos. A diferencia de los Modelos de Recompensa de Procesos (PRM) existentes, que se basan en la segmentación estática y el etiquetado manual, EDU-PRM establece automáticamente los límites de paso en tokens con alta entropía de predicción. En el conjunto de pruebas MATH, EDU-PRM alcanza una precisión del 65,5 %, superando a potentes modelos de referencia de PRM públicos como Math-Shepherd PRM (61,7 %) y Omega PRM (62,4 %). Además, la sustitución del muestreo HT por el muestreo EDU mejora tanto la precisión como la eficiencia. Con N=64, la precisión aumenta del 64,7 % (Muestra HT + BON) al 67,3 % (Muestra EDU + BON), mientras que el número de tokens generados disminuye un 47 %, lo que demuestra un excelente equilibrio entre precisión y coste. En el conjunto de pruebas ProcessBench, EDU-PRM alcanzó una precisión de vanguardia del 88,4 % utilizando menos del 1,5 % de los datos de entrenamiento de Qwen2.5-Math-PRM-72B, superando así el récord anterior del 87,8 %. En resumen, EDU-PRM proporciona un paradigma escalable y eficiente en anotaciones para la supervisión de procesos en inferencia matemática, allanando el camino para una inferencia compleja y eficiente en matemáticas.