Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CAST : Amélioration de la récupération de code et génération augmentée avec fragmentation structurelle via un arbre syntaxique abstrait

Created by
  • Haebom

Auteur

Yilin Zhang, Xinran Zhao, Zora Zhiruo Wang, Chenyang Yang, Jiayi Wei, Tongshuang Wu

Contour

Cet article souligne l'importance du découpage, qui divise les documents en unités interrogeables, dans la génération de code à grande échelle basée sur la génération augmentée par récupération (RAG). La méthode actuelle de découpage par lignes présente le problème de la rupture de la structure sémantique et de la baisse de la qualité de la génération. Dans cet article, nous proposons une méthode de découpage sensible à la structure utilisant l'arbre de syntaxe abstrait (AST). Le découpage basé sur l'AST divise récursivement les grands nœuds AST en segments plus petits et fusionne les nœuds frères tout en respectant la contrainte de taille pour générer des unités sémantiquement cohérentes et auto-complètes. Il montre une amélioration des performances dans diverses tâches de génération de code, améliorant Recall@5 de 4,3 points dans la recherche RepoEval et Pass@1 de 2,67 points dans la génération SWE-bench. Cette étude démontre l'importance du découpage sensible à la structure pour étendre l'intelligence du code basée sur la récupération.

Takeaways, Limitations

Takeaways:
Nous démontrons que le découpage basé sur AST peut surmonter les limitations du découpage ligne par ligne traditionnel et améliorer les performances de la génération de code basée sur RAG.
Nous présentons une méthode générale de découpage applicable à un large éventail de langages de programmation et de tâches.
Nous soulignons l’importance du découpage en blocs tenant compte de la structure et suggérons des orientations pour les futures recherches sur la génération de code basée sur RAG.
Limitations:
Il est possible que les améliorations de performance de la méthode proposée soient limitées à des ensembles de données spécifiques.
Le coût de calcul de la génération et du traitement de l’AST peut augmenter.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation pour des codes de taille et de complexité variables.
👍