Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

FlowRL: Matching Reward Distributions for LLM Reasoning

Created by
  • Haebom

作者

Xuekai Zhu, Daixuan Cheng, Dinghuai Zhang, Hengli Li, Kaiyan Zhang, Che Jiang, Youbang Sun, Ermo Hua, Yuxin Zuo, Xingtai Lv, Qizheng Zhang, Lin Chen, Fanghao Shao, Nong, Zing Jianfeng Gao, Xiaodong Liu, Bowen Zhou, Hongyuan Mei, Zhouhan Lin

概要

FlowRLは、大規模言語モデル(LLM)強化学習(RL)で報酬を最大化するのではなく、フローバランスを介して補償分布全体を一致させる方法を提案します。従来の補償最大化方法は、支配的な補償信号を過度に最適化し、それほど頻繁ではないが有効な推論経路を無視して多様性を減少させる傾向がある。 FlowRLはスカラー補償を学習可能な分割関数を使用して正規化されたターゲット分布に変換し、ポリシーとターゲット分布の間の逆KL発散を最小限に抑えます。 FlowRLは、様々なナビゲーションと一般化可能な推論軌跡を促進するフローバランス最適化方法として実装されています。数学およびコード推論作業の実験では、FlowRLはGRPOより平均10.0%、PPOより5.1%の有意なパフォーマンス向上を達成し、コード推論作業でも一貫して優れたパフォーマンスを示しました。

Takeaways、Limitations

Takeaways:
LLM RLでは、効率的なナビゲーションとさまざまな推論のための重要なステップとして、報酬分布の一致方法を紹介します。
数学およびコード推論作業では、従来の方法(GRPO、PPO)よりも高いパフォーマンスを達成しました。
さまざまなナビゲーションと一般化可能な推論の軌跡を促進します。
Limitations:
論文で具体的なLimitationsへの言及はありません。
👍