Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Noise-corrected GRPO: From Noisy Rewards to Unbiased Gradients

Created by
  • Haebom

作者

Omar El Mansouri, Mohamed El Amine Seddik, Salem Lahlou

GRPO:ノイズの中で堅牢な強化学習

概要

この論文は、人間のフィードバックからの強化学習(RLHF)や検証可能な報酬(RLVR)などの最新の大規模言語モデル(LLM)のソート、および最新の推論モデルの構築に広く使用されている方法論が、一貫していないかエラーのある報酬からのノイズに非常に敏感であることに注意してください。この研究は、これらのノイズとグループベースのポリシー最適化方法の間の相互作用の探索が不十分であることを指摘し、ノイズモデリングを明示的に実行するNoise-robust Group Relative Policy Optimization(GRPO)およびDone Right GRPO(Dr.GRPO)フレームワークを提示します。提案された方法論は、補償反転確率を推定した後にノイズ補正を適用して学習信号を偏向除去し、理論的分析により、グループベースの方法が個々のレベルのノイズを本質的に軽減し、提案された補正戦略がこれらの堅牢性を増幅することを示しています。実験の結果、標準補償モデル環境でGRPOを使用した場合、数学およびコード関連タスクで一貫したパフォーマンスが向上し、特に数学タスクで最大6.7%p、コードタスクで最大1.5%pの精度が向上しました。

Takeaways、Limitations

Takeaways:
RLHFとRLVRで発生する補償ノイズに対する新しいアプローチの提示:Bernoulliノイズによるモデリング。
GRPOおよびDr.GRPOフレームワークの導入:補償反転確率推定によるノイズ補正の適用。
理論的分析による提案法の雑音緩和効果の実証:グループベース法の堅牢性増幅
数学とコード関連の作業で実用的なパフォーマンス向上を確認する:最大6.7%p、1.5%pの精度向上。
地図学習のラベル雑音補正技術をRLHFに適用する新しい試み
Limitations:
特定のタスク(数学、コード)の実験結果に限定されている:他の種類のタスクの一般化を確認する必要があります。
Bernoulliノイズモデリングの前提:実際の補償ノイズ特性を完全に反映できない可能性があります。
補償反転確率推定の精度に依存する:推定誤差が性能に与える影響分析が必要です。
グループベースのポリシー最適化方法への依存性:他のポリシー最適化方法との比較と拡張研究が必要。
👍