Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

Created by
  • Haebom

作者

Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Bing Liu, Sean Hendryx

概要

この論文は、強化学習(RL)を実世界の課題に適用する際の客観的評価と主観的評価基準のバランスをとることが難しい点を取り上げます。特に、明確な基準真実が欠けている課題では、ポストトレーニング言語モデルの信頼できる報酬信号を定義することは困難です。従来の嗜好ベースの方法は解決策を提示するが、解釈が難しく、偽の相関に脆弱な不透明な補償関数に依存する。この論文では、構造化チェックリストスタイルの評価基準を解析可能な補償信号として使用する$\textbf{Rubrics as Rewards}$(RaR)フレームワークを紹介します。 GRPOを使用したオンポリシトレーニングに適用され、HealthBench-1kでは従来の単純なLikertベースのアプローチと比較して最大28%の相対的なパフォーマンスが向上し、専門家によって作成された参考資料から派生した報酬信号と同等または優れた性能を達成しました。 RaRは評価基準を構造化された補償信号として扱うことで、小規模な判断モデルが人間の好みとよりよく一致し、モデル規模で堅牢な性能を維持します。

Takeaways、Limitations

Takeaways:
構造化評価基準を使用して解釈可能で信頼できる補償信号を生成する新しい方法を提示します。
従来のアフィニティベースの方法よりもパフォーマンスが向上しました(HealthBench-1kでは最大28%向上)。
専門家の意見に基づく報酬信号と比較して同等または優れた性能を達成する。
小規模判断モデルの性能向上とモデル規模に対するロバスト性の確保
Limitations:
提示された方法の一般化性能に関するさらなる研究が必要である。
さまざまな実世界の課題に対する適用性検証が必要。
評価基準の設計と構成に関するガイダンスがさらに必要になる場合があります。
特定のデータセット(HealthBench-1k)の結果であり、他のデータセットでのパフォーマンスは追加の検証が必要です。
👍