Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

HyperAgent : agents d'ingénierie logicielle généralistes pour résoudre des tâches de codage à grande échelle

Created by
  • Haebom

Auteur

Huy Nhat Phan, Tien N. Nguyen, Phong X_. Nguyen, Nghi DQ Bui

Contour

Cet article présente HyperAgent, un système multi-agents innovant et polyvalent conçu pour réaliser un large éventail de tâches d'ingénierie logicielle (ES) dans différents langages de programmation. HyperAgent intègre quatre agents spécialisés (Planificateur, Navigateur, Éditeur de code et Exécuteur) qui reproduisent le workflow d'un développeur humain et gèrent l'intégralité du cycle de vie d'une tâche d'ES, incluant la planification, la navigation, l'édition de code et l'exécution. Nous démontrons qu'HyperAgent surpasse les systèmes de pointe existants sur diverses tâches d'ES, notamment la résolution de problèmes GitHub grâce au benchmark SWE-Bench, la génération de code au niveau du dépôt avec RepoExec, ainsi que la localisation des défauts et la réparation des programmes avec Defects4J.

Takeaways, Limitations

Takeaways:
Nous démontrons qu'un système multi-agents basé sur des LLM peut imiter efficacement le flux de travail des développeurs humains et automatiser diverses tâches SE.
HyperAgent s'est avéré être un système polyvalent applicable aux tâches SE générales, contrairement aux systèmes existants limités à des fonctions spécifiques.
A démontré l'excellence du système en dépassant les meilleures performances précédentes dans divers tests de performance.
Limitations:
Le document ne contient pas de description détaillée de l’implémentation spécifique d’HyperAgent ou du mécanisme de fonctionnement de chaque agent.
Bien qu'il présente des performances généralisées pour une variété de tâches SE, il existe une possibilité de dégradation des performances pour certains types de tâches ou de langages de programmation.
Une vérification supplémentaire de l’applicabilité et de la stabilité dans les environnements commerciaux réels est requise.
👍