Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Value-Guided Search for Efficient Chain-of-Thought Reasoning

Created by
  • Haebom

作者

Kaiwen Wang, Jin Peng Zhou, Jonathan Chang, Zhaolin Gao, Nathan Kallus, Kiant e Brantley, Wen Sun

概要

この論文は、長い文脈推論トレースの価値モデル訓練のための簡単で効率的な方法を提案する。従来のProcess Reward Model(PRM)とは異なり、この方法は、長い文脈推論モデルで定義するのが難しい「ステップ」の細かい概念を必要としません。 250万の推論トレースデータセットを収集して15億トークンレベルの価値モデルを訓練し、それをDeepSeekモデルに適用してテスト時間の計算を拡張してパフォーマンスを向上させました。 Block-wise Value-Guided Search(VGS)を最終重み付き多数決投票と組み合わせて使用​​すると、通常の多数決投票やbest-of-nなどの標準的な方法よりもテスト時間拡張が優れていることがわかりました.さらに、VGSは、多数決投票と同じパフォーマンスを達成するために必要な推論FLOPを大幅に削減します。データセット、モデル、およびコードベースが公開されました。

Takeaways、Limitations

Takeaways:
長い文脈推論モデルの価値モデルの訓練のための効率的な方法を提示した。
細かい「段階」定義なしで訓練可能。
Block-wise Value-Guided Search(VGS)によるテスト時間計算の拡張性能の向上
多数決投票と同じパフォーマンスを達成するために必要な推論FLOPsの減少。
データセット、モデル、コードベースの公開。
Limitations:
論文に具体的なLimitationsへの言及はありません。
👍