Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

An Efficient and Precise Training Data Construction Framework for Process-supervised Reward Model in Mathematical Reasoning

Created by
  • Haebom

作者

Wei Sun, Qianlong Du, Fuwei Cui, Jiajun Zhang

概要

この論文は、大規模言語モデル(LLM)の数学的推論能力を向上させるための新しいフレームワークであるEpicPRMを提案します。従来のプロセス監督報酬モデル(PRM)学習のためのデータ生成方法は、手動注釈や段階的なモンテカルロ推定などで費用がかかったり品質が低いという限界を持っています。 EpicPRMは、各中間推論ステップの寄与を定量化して注釈を付け、適応型バイナリ探索アルゴリズムを使用して注釈の精度と効率を向上させます。これにより、50,000の注釈付き中間段階で構成された高品質のプロセス監督学習データセットEpic50kを効率的に構築できます。 Epic50kで学習されたPRMは、従来のパブリックデータセットを使用したよりもはるかに優れたパフォーマンスを発揮します。 Epic50kはGitHubで公開されています。

Takeaways、Limitations

Takeaways:
LLMの数学的推論能力の向上に効果的な新しいフレームワーク(EpicPRM)の提示
高品質のプロセス監督学習データセット(Epic50k)の構築と公開
従来法より効率的で正確な注釈生成方法を提示
Epic50kを使用したPRMは従来の方法より優れた性能を発揮
Limitations:
EpicPRMの性能が他のタイプの推論問題または他のLLMアーキテクチャに対しても一般化されるかどうかをさらに研究する必要がある
Epic50kデータセットのサイズが大きいデータセットと比較して比較的小さい場合がある
適応型バイナリ探索アルゴリズムの最適パラメータ設定に関する追加の研究が必要
👍