Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SACL : Comprendre et combattre les biais textuels dans la recherche de code grâce au reclassement et à la localisation sémantiquement augmentés

Created by
  • Haebom

Auteur

Dhruv Gupta, Gayathri Ganesh Lakshmy, Yiqing Xie

Contour

Dans cet article, nous analysons les caractéristiques de la recherche de code dans la génération de code augmentée par la recherche (RACG) et menons des expériences pour masquer systématiquement certaines caractéristiques tout en préservant leur fonctionnalité. Les résultats expérimentaux montrent que les modèles de recherche de code existants s'appuient fortement sur des caractéristiques textuelles superficielles, telles que les docstrings et les noms d'identifiants, et privilégient les codes bien documentés, même s'ils ne sont pas pertinents. Sur cette base, nous proposons un framework SACL qui enrichit l'information textuelle et réduit le biais en ajoutant des informations sémantiques aux codes ou des connaissances structurelles. Les résultats expérimentaux montrent que SACL améliore significativement les performances de recherche de code sur HumanEval, MBPP et SWE-Bench-Lite (par exemple, 12,8 %, 9,4 % et 7,0 % dans Recall@1, respectivement), ainsi que les performances de génération de code (par exemple, 4,88 % dans Pass@1 dans HumanEval).

Takeaways, Limitations_

Takeaways:
Nous suggérons des moyens d’améliorer RACG en révélant la dépendance des fonctionnalités de surface des modèles de recherche de code et leur biais en faveur d’un code bien documenté.
Nous démontrons expérimentalement que le framework SACL peut améliorer les performances de recherche et de génération de code.
Souligne l’importance de la récupération et de la génération de code à l’aide d’informations sémantiques.
Limitations:
Il est possible que les améliorations des performances de SACL soient limitées à des ensembles de données spécifiques.
Des recherches supplémentaires sont nécessaires sur la généralisabilité à travers différents langages de programmation et styles de code.
Des recherches plus sophistiquées pourraient être nécessaires sur la manière d’extraire et d’utiliser les informations sémantiques.
👍