Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Self-Guided Process Reward Optimization with Redefined Step-wise Advantage for Process Reinforcement Learning

Created by
  • Haebom

作者

Wu Fei, Hao Kong, Shuxian Liang, Yang Lin, Yibo Yang, Jing Tang, Lei Chen, Xiansheng Hua

概要

本論文は、大規模言語モデル(LLM)の推論能力の向上にかなりの可能性を示すプロセス強化学習(PRL)の高い計算コスト問題と、プロセスレベルの利点を推定するための統合理論的枠組み不足問題を解決するために、自己案内プロセス補償最適化(SPRO)フレームワークを提案する。 SPROは、ポリシーモデル自体からプロセス補償を導出することができることを理論的に証明し、明確に定義された累積プロセス補償とマスクステップメリット(MSA)を導入して、共有プロンプトサンプリンググループ内で厳密なステップバイステップの行動利点を推定することを可能にするという2つのコアイノベーションを通じてプロセス認識RLを可能にします。実験の結果、SPROは従来のGRPOよりも3.4倍高いトレーニング効率と17.5%の改善されたテスト精度を示しました。さらに、訓練プロセス全体にわたって安定的で高い方針エントロピーを維持しながら、平均応答長を約3分の1短縮し、十分な探索と補償ハッキング防止を実証しました。特に、SPROは、GRPOなどの結果監督RL法と比較して追加の計算コストが発生せず、工業的実施に有利である。

Takeaways、Limitations

Takeaways:
プロセス強化学習の計算コスト問題を効果的に解決する新しいフレームワークであるSPRO提案。
従来法と比較して改善された訓練効率と試験精度を達成
安定した政策エントロピー維持と応答長の短縮による効率的なナビゲーションと補償ハッキングの防止
追加の計算コストなしでプロセス認識強化学習を可能にすることで産業的適用性を高めます。
Limitations:
提示された理論的証明と実験結果の一般化の可能性に関する追加の検証の必要性
様々なLLMアーキテクチャとタスクに対するSPROの適用性と性能評価の必要性
MSAの設計とパラメータ設定のより詳細な説明と分析が必要です。
👍