Dans cet article, nous présentons PRMBench, un nouveau benchmark pour l'évaluation des modèles de récompense au niveau des processus (PRM), où chaque étape intermédiaire joue un rôle crucial dans les processus complexes de raisonnement et de prise de décision. Contrairement aux benchmarks existants qui se concentrent uniquement sur la précision des étapes, PRMBench contient 6 216 problèmes et 83 456 étiquettes au niveau des étapes pour évaluer systématiquement la capacité subtile des PRM à détecter divers types d'erreurs implicites dans des scénarios réels. Grâce à des expériences sur 15 modèles (dont des PRM open source et des LLMs fermés inspirés par des modèles critiques), nous décelons des faiblesses significatives dans les PRM actuels, ce qui met en évidence les défis de l'évaluation au niveau des processus et suggère des orientations clés pour les recherches futures. Nous pensons que PRMBench constituera un benchmark solide pour faire progresser la recherche sur l'évaluation et le développement des PRM.