Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Rubrics as Rewards: Reinforcement Learning Beyond Verifiable Domains

Created by
  • Haebom

作者

Anisha Gunjal, Anthony Wang, Elaine Lau, Vaskar Nath, Yunzhong He, Bing Liu, Sean Hendryx

概要

Rubrics as Rewards(RaR)は、医療および科学の分野でルーブリックベースのフィードバックを使用して検証可能な領域を超えてReinforcement Learning with Verifiable Rewards(RLVR)を拡張する、オンポリシー強化学習方法です。 RaRは、ルーブリックフィードバックを報酬として集計するいくつかの戦略を評価し、HealthBenchで最大31%、GPQA-Diamondで7%の相対的な改善を達成し、Likertベースの報酬に依存する人気のLLM(Large Language Model)as judge baselineよりも優れた性能を示します。 RaRはさまざまな評価形式に適応し、ルーブリックベースと複数選択操作の両方で強力なパフォーマンスを発揮します。

Takeaways、Limitations

オンポリシー強化学習方法論RaRについて:ルーブリックベースのフィードバックを活用して検証可能な領域を超えてRLVRを拡張します。
医療および科学の分野におけるHealthBenchおよびGPQA-Diamondの実験結果:RaRはLLM as judge baselineに対する性能向上を示した。
さまざまな評価形式に適応し、小さなジャッジとジャッジスケールによるパフォーマンス偏差の低減。
Limitationsは論文内には記載されていません。
👍