Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

A Survey of Reinforcement Learning for Large Reasoning Models

Created by
  • Haebom

作者

Kaiyan Zhang, Yuxin Zuo, Bingxiang He, Youbang Sun, Runze Liu, Che Jiang, Yuchen Fan, Kai Tian, Guoli Jia, Pengfei Li, Yu Fu, Xingtai Lv, Yuchen Zhang, Sihang Zeng, Shang Qu, Haozhan Li, Shijie Wang, Yu Xu, Jiaze Ma, Xuekai Zhu, Ermo Hua, Yihao Liu, Zonglin Li, Huayu Chen, Xiaoye Qu, Yafu Li, Weize Chen, Zhenzhao Yuan, Junqi Gao, Dong Li, Zhiyuan Ma, Ganqu Cui, Zhiyuan Liu, Biq

概要

本論文は,大規模言語モデル(LLM)の推論能力を向上させるための強化学習(RL)の最近の発展を調査する。特に、数学やコーディングなどの複雑な論理的課題解決において、LLMの能力を向上させるためにRLは驚くべき成功を収め、結果的にRLはLLMをLRM(Reasoning Language Model)に変換する基本的な方法論となりました。しかし、RLの急速な発展にもかかわらず、LRMのためのRLのさらなる拡張は、計算リソースだけでなく、アルゴリズム設計、トレーニングデータ、およびインフラストラクチャに関しても基本的な課題に直面しています。したがって、この分野の発展を見直し、軌跡を再評価し、人工超知能(ASI)に向けたRLの拡張性を高めるための戦略を模索することが時宜を得ています。この論文は、特にDeepSeek-R1のリリース以降、推論能力のためにLLMとLRMにRLを適用した研究、基本コンポーネント、重要な問題、トレーニングリソース、およびサブアプリケーションを調査することによって、この急速に発展する分野の将来の機会と方向性を特定します。この論文は、より広い推論モデルのためのRLの将来の研究を促進することを期待しています。

Takeaways、Limitations

Takeaways: LLMの推論能力を向上させるためのRLの有効性を再確認し、今後の研究方向を提示します。 DeepSeek-R1以降の研究動向を分析し、LRMの発展に関する洞察を提供します。 RLベースのLRMの幅広い用途を望んでいます。
Limitations: RLベースのLRM拡張に必要な計算リソース、アルゴリズム設計、トレーニングデータ、およびインフラストラクチャの問題に対する具体的な解決策が不足しています。 ASIを達成するためのRLの適用可能性についての議論は比較的抽象的です。特定のRLアルゴリズムまたはLLMアーキテクチャの詳細な分析が不足する可能性があります。
👍