Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FlowRL: Matching Reward Distributions for LLM Reasoning

Created by
  • Haebom

作者

Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Nong, Zing Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin

概要

本稿では、大規模言語モデル(LLM)強化学習(RL)で報酬を最大化するのではなく、フローバランスを介して補償分布全体を一致させるFlowRLを提案します。最近開発された推論モデルは、PPOやGRPOなどの補償を最大化する方法を採用しています。対照的に、本論文では、学習可能な分割関数を使用してスカラー補償を正規化された目標分布に変換し、ポリシーと目標分布の間の逆KL発散を最小限に抑えます。このアイデアは、さまざまなナビゲーションと一般化可能な推論経路を促進するフローバランス最適化方法で実装されています。数学とコード推論作業の実験を行った結果、FlowRLは数学ベンチマークでGRPOより平均10.0%、PPOより5.1%向上し、コード推論作業でも一貫して優れたパフォーマンスを示しました。これらの結果は、LLM強化学習における効率的な探索と多様な推論のための重要なステップとして、報酬分布の一致を強調します。

Takeaways、Limitations

Takeaways:
LLM強化学習における報酬の最大化の代わりに報酬分布マッチングの有効性を提示する。
FlowRLが従来の方法(PPO、GRPO)よりも数学およびコード推論操作でより良いパフォーマンスを示すことを実験的に証明します。
様々な推論経路の探索と一般化可能な推論経路の生成に貢献する。
Limitations:
提示された方法の一般化性能のさらなる検証が必要である。
特定のタスク(数学とコード推論)の実験結果のみが提示され、他のタスクへの適用可能性にはさらなる研究が必要です。
学習可能な分割関数の設計と最適化の詳細な説明が不足している可能性があります。
👍