Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning

Created by
  • Haebom

作者

Yang Chen, Zhuolin Yang, Zihan Liu, Chankyu Lee, Peng Xu, Mohammad Shoeybi, Bryan Catanzaro, Wei Ping

概要

この論文では、大規模強化学習(RL)を使用して推論能力を向上させた小規模および中規模モデルを紹介します。従来の研究で強力な推論モデルを構築するために必要な詳細な実装戦略(データ管理戦略やRL訓練方法など)が省略されることが多く、小規模モデルでは知識蒸留がRLよりも効果的であるという研究結果がありました。本研究は、大規模なRLが強力な小規模および中規模モデルの推論能力を大幅に向上させ、最先端の知識蒸留ベースのモデルを上回る結果を達成することを示しています。まず、数学問題だけで訓練した後、コード問題で訓練する単純ながらも効果的なアプローチを提案し、これにより、数学とコード推論作業の両方でパフォーマンスの向上を確認しました。さらに、高品質で検証可能な回答とテストケースを備えた要求の厳しいプロンプトを収集する強力なデータ管理パイプラインを開発し、ドメイン全体で検証ベースのRLを可能にしました。最後に、応答長を徐々に増やすカリキュラム学習とオンポリシパラメータ更新の安定化効果など、主要な実験的洞察を提供します。 RLは、事前訓練や指導学習の微調整(例えば、知識蒸留)中に獲得した基本的な推論能力を引き出すだけでなく、モデルの推論能力の限界を超えて、以前は解決できなかった問題を解決できるようにします。

Takeaways、Limitations

Takeaways:
大規模RLにより,小規模および中規模モデルの推論能力を大幅に向上できることを証明した。
数学問題のみのRLトレーニングが、数学とコード推論の両方の操作でパフォーマンスの向上に貢献することを確認します。
効果的なデータ管理パイプラインとRLトレーニング戦略(カリキュラム学習、オンポリシアップデート)を提示します。
知識蒸留ベースのモデルより優れた性能を達成
Limitations:
提示された方法の一般化性能に関するさらなる研究の必要性
より多様なタイプの推論問題に対する性能評価の必要性
特定のデータセットとモデルサイズに限定された結果である可能性。
大規模なRLトレーニングに必要な計算資源がかなりあります。
👍