この論文は、人間のフィードバックからの強化学習(RLHF)や検証可能な報酬(RLVR)などの最新の大規模言語モデル(LLM)のソート、および最新の推論モデルの構築に広く使用されている方法論が、一貫していないかエラーのある報酬からのノイズに非常に敏感であることに注意してください。この研究は、これらのノイズとグループベースのポリシー最適化方法の間の相互作用の探索が不十分であることを指摘し、ノイズモデリングを明示的に実行するNoise-robust Group Relative Policy Optimization(GRPO)およびDone Right GRPO(Dr.GRPO)フレームワークを提示します。提案された方法論は、補償反転確率を推定した後にノイズ補正を適用して学習信号を偏向除去し、理論的分析により、グループベースの方法が個々のレベルのノイズを本質的に軽減し、提案された補正戦略がこれらの堅牢性を増幅することを示しています。実験の結果、標準補償モデル環境でGRPOを使用した場合、数学およびコード関連タスクで一貫したパフォーマンスが向上し、特に数学タスクで最大6.7%p、コードタスクで最大1.5%pの精度が向上しました。