この論文は、複雑な推論および意思決定プロセスにおいて各中間段階が重要な役割を果たすプロセスレベル補償モデル(PRM)の評価のための新しいベンチマークであるPRMBenchを提供します。既存のベンチマークが段階の正確さにのみ焦点を当てたのとは異なり、PRMBenchには、6,216の問題と83,456の段階レベルのラベルが含まれています。 15のモデル(オープンソースPRMと批評モデルとしてプロンプトされたクローズドソースLLMを含む)の実験を通して、現在のPRMのかなりの弱点を発見しました。 PRMBenchは、PRM評価と開発研究を進める堅牢なベンチマークになると期待されています。