Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Apprentissage par renforcement intégré aux outils pour la recherche approfondie dans les référentiels

Created by
  • Haebom

Auteur

Zexiong Ma, Chao Peng, Qunhong Zeng, Pengfei Gao, Yanzhen Zou, Bing Xie

Contour

Cet article aborde la localisation des problèmes logiciels, le processus d'identification des emplacements de code nécessitant des modifications pour résoudre les problèmes logiciels. L'écart sémantique entre les descriptions de problèmes en langage naturel et le code défectueux nécessite un raisonnement complexe en plusieurs étapes via les dépendances de code. Les agents LLM existants tentent de résoudre ce problème en intégrant des outils de recherche dans les référentiels, mais cela se traduit par une tâche complexe appelée « Recherche approfondie dans les référentiels », exigeant des agents LLM qu'ils exploitent efficacement plusieurs outils de recherche dans les référentiels tout au long du processus d'inférence et d'exploration en plusieurs étapes. Pour relever ce défi, cet article présente ToolTrain, un cadre d'apprentissage par intégration d'outils en deux étapes qui combine le réglage fin supervisé par échantillonnage par rejet et l'apprentissage par renforcement intégré aux outils. Les résultats expérimentaux démontrent que les modèles entraînés avec ToolTrain atteignent des performances de pointe, le modèle 32B surpassant Claude-3.7 en localisation fonctionnelle. De plus, nous démontrons qu'une amélioration des performances de localisation se traduit par une meilleure résolution des problèmes de bout en bout, démontrant que l'apprentissage pour la localisation des problèmes est une stratégie viable et efficace pour améliorer le développement logiciel automatisé.

Takeaways, Limitations

Takeaways:
Nous démontrons que le framework ToolTrain peut améliorer considérablement les performances de localisation des problèmes logiciels en améliorant la capacité à tirer parti des outils de recherche de référentiel de LLM.
Le modèle 32B surpasse Claude-3.7, suggérant le potentiel de localisation des problèmes basée sur LLM.
Nous démontrons l’efficacité de la formation à la localisation des problèmes en démontrant que l’amélioration des performances de localisation conduit à une amélioration des performances de résolution des problèmes de bout en bout.
Présentation d’une nouvelle stratégie pour améliorer le développement automatisé de logiciels.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation du framework ToolTrain et son applicabilité à divers projets logiciels.
Les résultats se concentrent sur une taille spécifique de LLM (32B), et il y a un manque d'évaluation des performances pour les LLM d'autres tailles.
Il existe une possibilité de biais de performance en fonction des caractéristiques de l’ensemble de données expérimentales.
Une évaluation plus approfondie est nécessaire pour garantir la robustesse face à des bases de code complexes ou à plusieurs langages de programmation.
👍