Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

PVPO: Pre-Estimated Value-Based Policy Optimization for Agentic Reasoning

Created by
  • Haebom

作者

Wenfeng Feng, Penghong Zhao, Guochao Jiang, Chuzhan Hao, Yuewei Zhang, Guohua Liu, Hao Wang

概要

PVPOは、複雑な作業で効率を向上させるための批評のない強化学習方法、特にグループポリシーに焦点を当てたアルゴリズムです。従来の方法の欠点である複数のサンプリングとポリシー内比較による地域最適化と計算コストの増加の問題を解決するために、PVPOは利点参照アンカーとデータ事前サンプリングを利用します。参照モデルを使用して事前ロールアウトを実行し、計算された補償スコアを参照アンカーとして使用して、グループ内の比較による累積偏向を効果的に修正し、トレーニング中のロールアウト数への依存性を大幅に削減します。さらに、参照モデルは、データ事前サンプリング中のサンプルの難易度を評価し、高効率データを効果的に選択し、トレーニング効率を向上させる。 PVPOは他の高度な批評のないRLアルゴリズムと直交的であるため、これらの方法と互換性があり、相補的です。 9つのデータセットの実験の結果、PVPOは最先端(SOTA)性能を達成し、さまざまなタスクの堅牢な一般化とさまざまな規模のモデルのスケーラブルなパフォーマンスを示しています。

Takeaways、Limitations

Takeaways:
批評のない強化学習の効率性を大幅に向上させました。
地域最適化問題と計算コストを効果的に軽減した。
さまざまなタスクとモデル規模で堅牢でスケーラブルなパフォーマンスを実証します。
最先端(SOTA)性能を達成しました。
他の批評のないRLアルゴリズムとの互換性を提供します。
Limitations:
参照モデルの性能はPVPOの性能に影響を与える可能性があります。
データ事前サンプリング戦略の最適化には追加の研究が必要になる場合があります。
大規模な問題のスケーラビリティに関する追加の実験と分析が必要になる場合があります。
👍