Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Breaking the Exploration Bottleneck: Rubric-Scaffolded Reinforcement Learning for General LLM Reasoning

Created by
  • Haebom

作者

Yang Zhou, Sunzhu Li, Shunyu Liu, Wenkai Fang, Kongcheng Zhang, Jiale Zhao, Jingwen Yang, Yihe Zhou, Jianwei Lv, Tongya Zheng, Hengtong Lu, Wei Chen, Yan Xie, Mingli Song

概要

大規模言語モデル(LLM)の強化学習(RL)ベースの推論能力の向上の可能性を示していますが、高品質のサンプルの欠如によるナビゲーションの制限があります。この研究は、これらのナビゲーションボトルネックを解決するために、Rubric-Scaffolded Reinforcement Learning(RuscaRL)という新しいフレームワークを提案します。 RuscaRLは、チェックリストスタイルのルーブリックを活用して、ロールアウト作成時のナビゲーションのための明示的な足場とモデルトレーニング時に検証可能な報酬を提供します。これにより、さまざまなベンチマークで既存のモデルを上回るパフォーマンスを達成しました。

Takeaways、Limitations

Takeaways:
RuscaRLはLLMの推論能力を向上させるための新しい学習フレームワークを提案しました。
チェックリストルーブリックを活用してナビゲーションと報酬メカニズムを改善しました。
さまざまなベンチマークで既存のLLMを上回るパフォーマンスを実証しました。
Qwen2.5-7B-InstructおよびQwen3-30B-A3B-Instructモデルで優れた性能を示しました。
オープンソースコードを公開し、研究の再現の可能性を高めました。
Limitations:
特定のLLMアーキテクチャ(Qwenファミリー)に最適化されている可能性があります。
ラブリック設計が性能に与える影響のさらなる分析が必要である。
HealthBench-500などの特定のベンチマークへの依存度が高いです。
GPT-4.1などのモデルとの比較は、最新のモデルアップデートを反映する必要があります。
👍