この論文は、大規模言語モデル(LLM)の数学的推論能力を向上させるための新しいフレームワークであるEpicPRMを提案します。従来のプロセス監督報酬モデル(PRM)学習のためのデータ生成方法は、手動注釈や段階的なモンテカルロ推定などで費用がかかったり品質が低いという限界を持っています。 EpicPRMは、各中間推論ステップの寄与を定量化して注釈を付け、適応型バイナリ探索アルゴリズムを使用して注釈の精度と効率を向上させます。これにより、50,000の注釈付き中間段階で構成された高品質のプロセス監督学習データセットEpic50kを効率的に構築できます。 Epic50kで学習されたPRMは、従来のパブリックデータセットを使用したよりもはるかに優れたパフォーマンスを発揮します。 Epic50kはGitHubで公開されています。