[공지사항]을 빙자한 안부와 근황 
Show more

Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

CodeAssistBench (CAB) : Ensemble de données et analyse comparative pour l'assistance au code multi-tours basée sur le chat

Created by
  • Haebom

Auteur

Myeongsoo Kim, Shweta Garg, Baishakhi Ray, Varun Kumar, Anoop Deoras

Contour

Dans cet article, nous présentons CodeAssistBench (CAB), un nouveau framework de benchmark permettant d'évaluer le support de la programmation multi-tours à l'aide de bases de code réelles, afin de surmonter les limites des benchmarks existants centrés sur la génération de code. CAB génère un ensemble de données automatiquement évolutif à partir des données de problèmes GitHub et évalue les modèles dans des environnements de base de code conteneurisés. Nous évaluons les principaux modèles de langage à grande échelle (LLM) sur un ensemble de tests composé de 231 référentiels, 7 langages de programmation et 3 286 questions de programmation réelles. Nous constatons que leurs performances dans des environnements de projets complexes sont nettement inférieures à celles des réponses à une seule question (jusqu'à 16,49 % pour les questions CAB, contre 70 à 83 % pour les questions Stack Overflow). Cela démontre un écart de performance significatif entre les réponses à des questions simples et l'assistance dans des situations complexes, spécifiques à un projet.

Takeaways, Limitations_

Takeaways:
Souligne l’importance de l’évaluation du support de programmation multi-tours à l’aide de bases de code réelles.
Présentation d’un nouveau cadre de référence (CAB) qui surmonte les limites des repères existants.
Présentez clairement le problème de dégradation des performances lors de l’application de LLM à un environnement réel.
Soulever le besoin de développement de technologies de support à la programmation dans des contextes de projets complexes.
Limitations:
La portée de l'ensemble de données CAB peut être limitée à un référentiel GitHub spécifique.
Une validation supplémentaire de la qualité et de la diversité des ensembles de données générés automatiquement est nécessaire.
Il se peut que cela ne reflète pas parfaitement les situations réelles des utilisateurs.
Il doit y avoir une explication claire du type et de la version du LLM utilisé dans l’évaluation.
👍