Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RepoDebug : Évaluation du débogage multitâche et multilingue au niveau du référentiel pour les grands modèles de langage

Created by
  • Haebom

Auteur

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunhong Wang, Haifeng Wang

Contour

Cet article se concentre sur les capacités de débogage de code des modèles de langage à grande échelle (LLM), notamment leurs capacités de réparation automatique de programmes. Nous soulignons les limites des jeux de données de débogage de code existants, qui se concentrent principalement sur la réparation de code au niveau fonctionnel et ne prennent pas en compte les scénarios réalistes au niveau du référentiel. Par conséquent, nous présentons RepoDebug, un jeu de données de débogage de code au niveau du référentiel, multitâche et multilingue, qui englobe un large éventail de tâches, de langages et de types d'erreurs. RepoDebug prend en charge huit langages de programmation, 22 types d'erreurs et trois tâches de débogage. Les résultats expérimentaux obtenus sur dix LLM démontrent que même le modèle le plus performant, Claude 3.5 Sonnect, ne parvient pas à obtenir de bons résultats au niveau du référentiel.

Takeaways, Limitations

Takeaways:
Nous fournissons RepoDebug, un ensemble de données de débogage de code réaliste au niveau du référentiel, établissant une nouvelle norme pour l'évaluation des performances de débogage de code de LLM.
Il permet d’évaluer la généralisabilité du LLM en incluant divers langages de programmation et types d’erreurs.
Il présente clairement l'état actuel et les limites des capacités de débogage de code au niveau du référentiel de LLM.
Limitations:
L'ensemble de données RepoDebug ne couvre peut-être pas encore entièrement tous les types d'erreurs au niveau du référentiel et les langages de programmation.
Les types de LLM utilisés dans l’évaluation peuvent être limités.
Il se peut que cela ne reflète pas entièrement la complexité du débogage au niveau du référentiel.
👍