Daily Arxiv

世界中で発行される人工知能関連の論文をまとめるページです。
このページはGoogle Geminiを活用して要約し、非営利で運営しています。
論文の著作権は著者および関連機関にあり、共有する際は出典を明記してください。

Tool-integrated Reinforcement Learning for Repo Deep Search

Created by
  • Haebom

作者

Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

概要

この論文は、ソフトウェア問題のローカライズ、すなわちソフトウェアの問題を解決するために修正が必要なコードの場所を特定するプロセスについて説明します。自然言語の問題の説明と欠陥のあるコード間の意味の違いにより、コード依存性による複雑な多段階推論が必要です。従来のLLMベースのエージェントは、ストレージ検索ツールを統合してこの問題を解決しようとしましたが、これは、LLMが多段階推論およびナビゲーションの過程でさまざまなストレージ検索ツールを効果的に活用する必要がある「Repo Deep Search」という難しい作業に変換されます。この問題を解決するために、この論文は、拒否サンプリング監督微調整とツール統合強化学習を組み合わせた2段階のツール統合トレーニングフレームワークであるToolTrainを提供します。実験の結果、ToolTrainで訓練されたモデルは最先端のパフォーマンスを達成し、32Bモデルは関数レベルのローカライズでClaude-3.7を上回ります。また、ローカライズのパフォーマンスの向上は、エンドツーエンドの問題解決のパフォーマンスの向上につながり、問題のローカライズのトレーニングが自動化されたソフトウェア開発を改善する実行可能で効果的な戦略であることを示しています。

Takeaways、Limitations

Takeaways:
ToolTrainフレームワークは、LLMのリポジトリ検索ツールの活用能力を向上させ、ソフトウェア問題のローカライズパフォーマンスを大幅に向上させることができることを示しています。
32BモデルはClaude-3.7を上回る性能を達成し、LLMベースの問題のローカライゼーションの可能性を示した。
改善されたローカライゼーションのパフォーマンスがエンドツーエンドの問題解決のパフォーマンス向上につながることを確認し、問題のローカライゼーショントレーニングの有効性を実証します。
自動化されたソフトウェア開発を改善するための新しい戦略を提示します。
Limitations:
ToolTrainフレームワークの一般化パフォーマンスと、さまざまなソフトウェアプロジェクトへの適用性に関するさらなる研究が必要です。
特定のサイズのLLM(32B)の結果を中心に、異なるサイズのLLMのパフォーマンス評価が不十分です。
実験データセットの特性による性能偏向の可能性の存在
複雑なコードベースまたはさまざまなプログラミング言語のロバストネスの追加評価が必要です。
👍