Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Agent RL Scaling Law: Agent RL with Spontaneous Code Execution for Mathematical Problem Solving

Created by
  • Haebom

作者

Xinji Mai, Haotian Xu, Xing W, Weinong Wang, Jian Hu, Yingying Zhang, Wenqiang Zhang

概要

この論文では、強化学習(RL)を通じて、大規模言語モデル(LLM)が外部ツール(Pythonコード実行)を自発的に活用して数学の問題解決能力を向上させるZeroTIR(Zero-shot Tool-Integrated Reasoning)方法論を提示します。ディレクティブツールの使用例なしで、結果ベースの報酬としてRLを適用して、LLMがPythonコードを生成して実行するように学習することが重要です。実験の結果、RLの訓練段階が増加するにつれて、自発的なコード実行の頻度、応答の長さ、最終精度の両方が増加する正の相関関係を確認し、訓練努力と効果的なツール活用戦略の習得の間の定量的関係を提示します。標準のRLアルゴリズムとフレームワークを使用して堅牢なフレームワークを実装し、従来の方法より優れたパフォーマンスを実証します。

Takeaways、Limitations

Takeaways:
結果ベースの報酬RLは、LLMが外部ツールを自発的に活用する能力を効果的に学習できることを示しています。
トレーニング段階とパフォーマンスの向上との間の定量的関係を特定し、今後の研究のための基準を提示します。
提示されたZeroTIR方法論は、困難な数学の問題解決において、従来の方法より優れた性能を示します。
再現可能な研究環境とコードを公開し、その後の研究を支援します。
Limitations:
現在、Pythonコードの実行に限定されており、他の種類のツールの活用へのスケーラビリティに関するさらなる研究が必要です。
使用される数学の問題ベンチマークの範囲は限られている可能性があり、さらにさまざまな種類の問題のパフォーマンス評価が必要です。
RLの訓練に必要な計算コストはかなり高い場合があり、効率的な訓練方法のさらなる研究が必要です。
👍