Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

Created by
  • Haebom

作者

Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Jiale Zhao, Jingwen Yang, Jianwei Lv, Kongcheng Zhang, Yihe Zhou, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song

概要

この論文では、大規模言語モデル(LLM)の推論能力を向上させるために強化学習(RL)を活用する方法を紹介します。従来のRLベースのLLM学習は高品質のサンプルに依存するが、LLM自体の制限によりこれらのサンプル探索が制限されるという問題がある。これを解決するために、この論文はRubric-Scaffolded Reinforcement Learning(RuscaRL)という新しいフレームワークを提案します。 RuscaRLは、チェックリスト形式のルーブリックを活用して、ロールアウト生成段階でさまざまな高品質応答を導き、モデル学習段階でルーブリックに基づいて信頼できる報酬を提供します。その結果、さまざまなベンチマークで従来の方法より優れた性能を示し、特にHealthBench-500でQwen2.5-7B-Instructの性能を23.6から50.3に、Qwen3-30B-A3B-Instructの性能を61.1に向上させ、GPT-4.1およびOpenAI-o3を

Takeaways、Limitations

Takeaways:
チェックリスト形式のルーブリックを活用した強化学習フレームワーク(RuscaRL)により、LLMの推論能力を効果的に向上できることを示しています。
さまざまなベンチマークでSOTA性能を達成。特にHealthBench-500でGPT-4.1を凌駕する性能を記録。
ルーブリックベースのナビゲーションと報酬戦略は、LLMの推論能力を向上させるための効果的な方法論を提示します。
Limitations:
現在研究が進行中であり、コード、モデル、データセット公開は今後進行予定。
ルーブリック設計の品質によっては、パフォーマンスが大きく影響を受ける可能性があります。ルーブリック設計の詳細な説明とガイドラインが不足しています。
様々なタイプの推論問題に対する一般化性能評価が欠けている。
👍