Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

ASE : une référence au niveau du référentiel pour évaluer la sécurité du code généré par l'IA

Created by
  • Haebom

Auteur

Keke Lian, Bin Wang, Lei Zhang, Libo Chen, Junjie Wang, Ziming Zhao, Yujiu Yang, Haotong Duan, Haoran Zhao, Shuang Liao, Mingda Guo, Jiazheng Quan, Yilu Zhong, Chenhao He, Zichuan Chen, Jie Wu, Haoling Li, Zhaoxuan Li, Jiongchi Yu, Hui Li, Dong Zhang

Contour

Cet article souligne l'importance d'évaluer la sécurité du code généré, compte tenu de l'utilisation croissante des modèles de langage à grande échelle (MLH) en génie logiciel. Les benchmarks existants manquent de pertinence pour les scénarios de programmation d'IA réels, ce qui les rend inadaptés à l'évaluation des risques de sécurité pratiques associés au code généré par l'IA en situation réelle. Pour répondre à cette problématique, cet article présente AI Code Generation Security Evaluation (ASE), un benchmark d'évaluation au niveau du référentiel conçu pour refléter fidèlement les tâches de programmation d'IA réelles. Les évaluations des principaux LLM utilisant ASE révèlent que les LLM actuels peinent à coder de manière sécurisée, et que la complexité des scénarios au niveau du référentiel représente un défi pour les LLM généralement performants sur les tâches au niveau des fragments de code. De plus, nous démontrons que des budgets d'inférence plus importants ne conduisent pas nécessairement à une meilleure génération de code. Ces observations apportent des éclairages précieux sur l'état actuel de la génération de code d'IA, aident les développeurs à sélectionner les modèles les plus adaptés à leurs tâches et posent les bases de l'amélioration des LLM afin de générer du code sécurisé et efficace dans des applications réelles.

Takeaways, Limitations

Takeaways:
Un nouveau benchmark, ASE, reflète des scénarios de programmation d'IA du monde réel.
Révéler les limites de la capacité du LLM actuel à générer du code sécurisé.
Analyser l’impact de la complexité des opérations au niveau du stockage sur les performances LLM.
Nous n’avons trouvé aucune corrélation entre le budget d’inférence et la qualité de la génération de code.
Sélection du LLM pour les développeurs et orientations pour l'amélioration du LLM
Limitations:
Des recherches supplémentaires sont nécessaires pour déterminer la généralisabilité du benchmark ASE.
Il est nécessaire d'élargir les évaluations pour divers LLM et langages de programmation.
Des améliorations des critères de référence sont nécessaires pour refléter des scénarios réels plus complexes et plus diversifiés.
👍