Le modèle de récompense de processus d'incertitude piloté par l'entropie (EDU-PRM) est un nouveau cadre d'apprentissage de modélisation de récompense de processus piloté par l'entropie. Il permet une segmentation dynamique et ajustée à l'incertitude d'étapes d'inférence complexes sans nécessiter d'annotation manuelle. Contrairement aux modèles de récompense de processus (PRM) existants qui reposent sur une segmentation statique et un étiquetage manuel, l'EDU-PRM définit automatiquement les limites des étapes aux jetons présentant une entropie de prédiction élevée. Sur l'ensemble de test MATH, l'EDU-PRM atteint une précision de 65,5 %, surpassant les puissants modèles de référence PRM publics tels que Math-Shepherd PRM (61,7 %) et Omega PRM (62,4 %). De plus, le remplacement de l'échantillonnage HT par l'échantillonnage EDU améliore à la fois la précision et l'efficacité. À N = 64, la précision passe de 64,7 % (échantillon HT + BON) à 67,3 % (échantillon EDU + BON), tandis que le nombre de jetons générés diminue de 47 %, démontrant un excellent rapport précision-coût. Sur l'ensemble de tests ProcessBench, EDU-PRM a atteint une précision de pointe de 88,4 % en utilisant moins de 1,5 % des données d'entraînement Qwen2.5-Math-PRM-72B, surpassant le précédent record de 87,8 %. En résumé, EDU-PRM fournit un paradigme évolutif et optimisé en termes d'annotations pour la supervision des processus en inférence mathématique, ouvrant la voie à une inférence complexe efficace en mathématiques.