Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

PatchPilot : un agent d'ingénierie logicielle rentable avec des tentatives précoces de vérification formelle

Created by
  • Haebom

Auteur

Hongwei Li, Yuheng Tang, Shiqi Wang, Wenbo Guo

Contour

Dans cet article, nous proposons PatchPilot, un nouveau patcher basé sur des agents pour la génération de correctifs logiciels. En analysant les avantages et les inconvénients des méthodes existantes basées sur des agents et des règles, nous proposons un nouveau workflow basé sur des règles qui prend en compte l'efficacité, la stabilité et la rentabilité. PatchPilot se compose de cinq composants : reproductibilité, localisation, génération, vérification et raffinement. Chaque composant est conçu de manière unique pour maximiser son efficacité et son efficience. Les résultats expérimentaux obtenus avec le benchmark SWE-bench montrent que PatchPilot surpasse les méthodes open source existantes tout en maintenant un faible coût (< 1 $ par instance) et une grande stabilité. De plus, nous avons réalisé une étude d'ablation détaillée pour vérifier la conception de chaque composant. Le code est disponible sur GitHub.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle approche qui surmonte les limites des méthodes basées sur des agents et des règles dans le domaine de la génération de correctifs logiciels.
PatchPilot atteint simultanément des performances élevées, une stabilité et une rentabilité optimales.
Grâce à la conception détaillée de chaque composant, nous présentons des stratégies d’optimisation pour une génération de correctifs efficace.
Il est publié en open source pour encourager son utilisation et son développement par d'autres chercheurs.
Limitations:
Actuellement, seules les performances sur un benchmark spécifique appelé SWE-bench ont été évaluées, donc les performances de généralisation sur d'autres benchmarks ou dans des environnements réels nécessitent des recherches supplémentaires.
Parce qu'il est basé sur des règles, il peut avoir des limites dans la génération de correctifs pour les bogues complexes et imprévisibles.
Bien que les études d’ablation aient confirmé l’importance de chaque composant, une analyse plus approfondie de leurs interactions peut être nécessaire.
👍