Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

RL-PLUS: Countering Capability Boundary Collapse of LLMs in Reinforcement Learning with Hybrid-policy Optimization

Created by
  • Haebom

作者

Yihong Dong, Xue Jiang, Yongding Tao, Huanyu Liu, Kechi Zhang, Lili Mou, Rongyu Cao, Yingwei Ma, Jue Chen, Binhua Li, Zhi Jin, Fei Huang, Yongbin Li, Ge Li

概要

本論文は検証可能な報酬を用いた強化学習(RLVR)が大規模言語モデル(LLM)の複雑な推論能力を向上させたが,本質的にオンポリシ戦略とLLMの膨大な行動空間および希少補償によって基本LLMの固有の能力限界を克服することに困難を抱え,RLVRが能力できることを指摘します。これを解決するために、本論文は、内部活用と外部データを相乗効果をもたらすように組み合わせることで、より強力な推論能力を達成し、基本モデルの限界を超える新しいハイブリッドポリシー最適化アプローチであるRL-PLUSを提案します。 RL-PLUSは、外部データの分布の不一致を解決するための多重重要度サンプリングと、高価値の探索されていない推論経路にモデルを導くためのナビゲーションベースの利点関数という2つの重要なコンポーネントを統合しています。この論文は、理論的分析と広範な実験を通じて提案されたアプローチの卓越性と一般化の可能性を実証しています。

Takeaways、Limitations

Takeaways:
RL-PLUSは、従来のRLVR法より6つの数学推論ベンチマークで最先端の性能を達成しました。
6つの分布以外の推論作業で優れた性能を示しました。
さまざまなモデルシリーズで、平均相対的な改善率が最大69.2%に達する一貫したパフォーマンスが大幅に向上しました。
RL-PLUSは能力境界崩壊問題を効果的に解決します。
Limitations:
本論文では、RL-PLUSのLimitationsへの明示的な言及はありません。さらなる研究により、具体的なLimitationsを明らかにする必要があります。例えば、多重重要度サンプリングとナビゲーションベースの利点関数の効率のさらなる分析が必要になる場合がある。さらに、特定のタイプの問題またはLLMアーキテクチャに対する一般化可能性の制限が存在し得る。
👍