この論文は、ソフトウェア問題のローカライズ、すなわちソフトウェアの問題を解決するために修正が必要なコードの場所を特定するプロセスについて説明します。自然言語の問題の説明と欠陥のあるコード間の意味の違いにより、コード依存性による複雑な多段階推論が必要です。従来のLLMベースのエージェントは、ストレージ検索ツールを統合してこの問題を解決しようとしましたが、これは、LLMが多段階推論およびナビゲーションの過程でさまざまなストレージ検索ツールを効果的に活用する必要がある「Repo Deep Search」という難しい作業に変換されます。この問題を解決するために、この論文は、拒否サンプリング監督微調整とツール統合強化学習を組み合わせた2段階のツール統合トレーニングフレームワークであるToolTrainを提供します。実験の結果、ToolTrainで訓練されたモデルは最先端のパフォーマンスを達成し、32Bモデルは関数レベルのローカライズでClaude-3.7を上回ります。また、ローカライズのパフォーマンスの向上は、エンドツーエンドの問題解決のパフォーマンスの向上につながり、問題のローカライズのトレーニングが自動化されたソフトウェア開発を改善する実行可能で効果的な戦略であることを示しています。