Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains
Created by
Haebom
作者
Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Bing Liu, Sean Hendryx
概要
この論文は、強化学習(RL)を実世界の課題に適用する際の客観的評価と主観的評価基準のバランスをとることが難しい点を取り上げます。特に、明確な基準真実が欠けている課題では、ポストトレーニング言語モデルの信頼できる報酬信号を定義することは困難です。従来の嗜好ベースの方法は解決策を提示するが、解釈が難しく、偽の相関に脆弱な不透明な補償関数に依存する。この論文では、構造化チェックリストスタイルの評価基準を解析可能な補償信号として使用する$\textbf{Rubrics as Rewards}$(RaR)フレームワークを紹介します。 GRPOを使用したオンポリシトレーニングに適用され、HealthBench-1kでは従来の単純なLikertベースのアプローチと比較して最大28%の相対的なパフォーマンスが向上し、専門家によって作成された参考資料から派生した報酬信号と同等または優れた性能を達成しました。 RaRは評価基準を構造化された補償信号として扱うことで、小規模な判断モデルが人間の好みとよりよく一致し、モデル規模で堅牢な性能を維持します。