Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains
Created by
Haebom
作者
Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Yunzhong He, Bing Liu, Sean Hendryx
概要
Rubrics as Rewards(RaR)は、医療および科学の分野でルーブリックベースのフィードバックを使用して検証可能な領域を超えてReinforcement Learning with Verifiable Rewards(RLVR)を拡張する、オンポリシー強化学習方法です。 RaRは、ルーブリックフィードバックを報酬として集計するいくつかの戦略を評価し、HealthBenchで最大31%、GPQA-Diamondで7%の相対的な改善を達成し、Likertベースの報酬に依存する人気のLLM(Large Language Model)as judge baselineよりも優れた性能を示します。 RaRはさまざまな評価形式に適応し、ルーブリックベースと複数選択操作の両方で強力なパフォーマンスを発揮します。