Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Created by
  • Haebom

作者

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

概要

本論文は、強化学習ベースの検証可能な報酬を使用する大規模言語モデル(LLM)の推論能力向上研究についてLimitationsを指摘し、それを克服するための新しいハイブリッドポリシー最適化技術であるRL-PLUSを提案します。 RL-PLUSは、内部探索と外部データを活用する戦略を通じて、既存のRLVR方式の限界である能力境界崩壊問題を解決し、強化された推論能力を達成します。重要なコンポーネントは、マルチクリティカルサンプリングとナビゲーションベースの利点関数を使用して、外部データの分布の不一致と未発見の推論パスナビゲーションの問題を解決します。実験の結果、RL-PLUSは複数の数学推論ベンチマークと分布外推論作業で最先端の性能を達成し、さまざまなモデルで平均69.2%の性能向上を示しました。 Pass@k曲線分析により、能力境界崩壊の問題解決効果を確認しました。

Takeaways、Limitations

Takeaways:
既存のRLVRのLimitationsである能力境界崩壊問題を効果的に解決する新しい方法を提示します。
数学推論と分布外推論作業における最先端の性能を達成
様々なLLMモデルにおける一貫した有意な性能向上
内部ナビゲーションと外部データ活用の相乗効果による強化された推論能力の確保
多重重要度サンプリングとナビゲーションベースの利点関数の有効活用
Limitations:
提案された方法の計算コストと複雑さの追加分析が必要です。
より多様で複雑な問題領域の一般化性能検証が必要
外部データの品質と量の依存性評価が必要です。
👍