Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration

Created by
  • Haebom

作者

Zhicheng Yang, Zhijiang Guo, Yinya Huang, Yongxin Wang, Dongchun Xie, Yiwei Wang, Xiaodan Liang, Jing Tang

概要

本稿では、強化学習ベースの検証可能な補償学習(RLVR)における言語モデルの推論能力を向上させるための2つの重要な要素である深さ(Depth)と幅(Breadth)を分析します。従来のGRPOアルゴリズムのLimitationsは、中間精度のサンプルに対する重みが過度に高く、推論能力の向上に重要な低精度サンプルの重みが低いことを指摘している。これを解決するために、困難な問題の多段階ロールアウトを介して重みを再調整するDifficulty Adaptive Rollout Sampling(DARS)技術を提案します。さらに、バッチサイズを大幅に増やし、PPOのミニバッチリピートではなく、複数のエポックにわたるフルバッチアップデートを使用して学習データの幅を拡大する方法を紹介します。最後に,DARSと大規模バッチサイズを組み合わせたDARS-Bを提案し,深さと幅がRLVRで相互に独立して推論性能の向上に寄与することを実験的に証明した。

Takeaways、Limitations

Takeaways:
GRPOアルゴリズムのLimitationsである深さ(Depth)と幅(Breadth)の重要性を明らかにします。
難しい問題に対する探索を増加させるDARS技術によるRLVRの推論性能の向上
大規模なバッチサイズを活用したBreadth拡張による追加のパフォーマンス向上。
DARS-Bにより深さと幅を同時に改善し、Pass@KとPass@1の性能の両方を向上。
RLVRにおける深さと幅が相互に独立して作用することを実験的に証明した。
Limitations:
提案された方法の効果は、特定のRLVR設定とデータセットに限定することができます。
大規模なバッチサイズの使用による計算コストの増加
さらに、さまざまな種類の問題とデータセットの追加の実験が必要です。
👍