Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Du code à la correction : terminer la dernière étape de la génération de code grâce au débogage hiérarchique

Created by
  • Haebom

Auteur

Yuling Shi, Songsong Wang, Chengcheng Wan, Min Wang, Xiaodong Gu

Contour

Cet article propose un débogueur multi-résolution (MGDebugger) pour surmonter les limitations de la génération de code basée sur des modèles de langage à grande échelle (LLM). MGDebugger isole, identifie et corrige les bogues dans le code généré à différents niveaux de granularité, allant des erreurs de syntaxe de bas niveau aux failles algorithmiques de haut niveau. Il décompose le code problématique en une arborescence hiérarchique de sous-fonctions, chaque niveau représentant une erreur à une granularité spécifique. Grâce à un exécuteur Python basé sur LLM, il trace l'exécution des sous-fonctions et surveille l'état des variables afin d'identifier précisément les erreurs. La précision et l'efficacité sont améliorées grâce à des tests au niveau des sous-fonctions et à une résolution itérative des bogues ascendante. Les résultats expérimentaux obtenus avec les jeux de données HumanEval et HumanEvalFix démontrent ses performances supérieures à celles des systèmes de débogage existants.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode de débogage qui peut contribuer à améliorer la précision de la génération de code basée sur LLM.
Efficacité prouvée pour la résolution de problèmes complexes en résolvant les bugs à différents niveaux de granularité.
Identification et correction précises des erreurs possibles grâce à un simulateur basé sur LLM.
Amélioration des performances vérifiée expérimentalement par rapport aux systèmes existants sur les ensembles de données HumanEval et HumanEvalFix.
Limitations:
Actuellement, le système est spécialisé pour Python et son applicabilité à d’autres langages de programmation nécessite des recherches supplémentaires.
Une validation supplémentaire des performances et de la fiabilité du simulateur basé sur LLM est nécessaire.
La gestion de types de bugs très complexes ou spéciaux nécessite des expérimentations supplémentaires.
En raison des limitations de LLM, il est possible que certains types de bugs ne soient pas détectés.
👍