Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CoQuIR : une référence complète pour la recherche d'informations tenant compte de la qualité du code

Created by
  • Haebom

Auteur

Jiahui Geng, Fengyu Cai, Shaobo Cui, Qing Li, Liangwei Chen, Chenyang Lyu, Haonan Li, Derui Zhu, Walter Pretschner, Heinz Koeppl, Fakhri Karray

Contour

Cet article propose CoQuIR, un benchmark multilingue à grande échelle pour évaluer la qualité de la récupération de code, essentielle pour améliorer la réutilisation du code et la vitesse de débogage dans le développement logiciel. Contrairement aux benchmarks existants qui se concentrent uniquement sur la pertinence fonctionnelle, CoQuIR fournit des annotations de qualité précises pour 42 725 requêtes et 134 907 extraits de code dans 11 langages de programmation, en prenant en compte quatre dimensions clés : précision, efficacité, sécurité et maintenabilité. À l'aide de deux indicateurs d'évaluation axés sur la qualité – la précision des préférences par paires et le score de classement basé sur la marge – nous avons comparé 23 modèles de récupération et constaté que même les modèles les plus performants peinent à distinguer le code bogué ou dangereux du code plus robuste. De plus, nous menons une étude préliminaire sur les méthodes d'apprentissage qui encouragent explicitement la qualité du code, démontrant des améliorations des indicateurs de qualité sur différents modèles à l'aide d'ensembles de données synthétiques. Nous validons ensuite l'efficacité de notre approche par des expériences ultérieures de génération de code. En conclusion, cette étude souligne l’importance d’intégrer des signaux de qualité dans les systèmes de recherche de code, jetant ainsi les bases d’outils de développement logiciel plus fiables et plus robustes.

Takeaways, Limitations

Takeaways:
Il souligne l’importance de prendre en compte la qualité du code (exactitude, efficacité, sécurité, maintenabilité) dans les systèmes de recherche de code.
Nous fournissons un benchmark multilingue à grande échelle, CoQuIR, pour évaluer avec précision les capacités de reconnaissance de qualité des modèles de recherche de code.
Nous démontrons que les méthodes de formation axées sur la qualité peuvent améliorer les performances de perception de la qualité.
Jeter les bases du développement d’outils de développement logiciel plus fiables et plus robustes.
Limitations:
ÉTant donné que le benchmark CoQuIR est basé sur des résultats expérimentaux préliminaires utilisant des ensembles de données synthétiques, une validation supplémentaire de ses performances sur des ensembles de données du monde réel est nécessaire.
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité de la méthode de formation axée sur la qualité proposée.
Il se peut qu’il y ait un manque de discussion sur les limites et le potentiel d’amélioration des mesures d’évaluation.
👍