Cette page résume et organise les publications en intelligence artificielle du monde entier. Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif. Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.
Cet article se concentre sur l'évaluation de code à l'aide de modèles de langage à grande échelle (MLH) et propose une nouvelle approche multi-agents qui utilise des grilles d'évaluation spécifiques aux questions plutôt que des grilles d'évaluation traditionnelles indépendantes des questions. Si les recherches précédentes se sont concentrées sur la génération de code à l'aide de MHL, les recherches sur l'évaluation de code restent rares, et cet article vise à combler cette lacune. Pour pallier le manque de données d'évaluation adéquates, nous introduisons deux nouveaux ensembles de données : l'un pour les tâches de structures de données et d'algorithmes (150 soumissions) et l'autre pour les tâches de programmation orientée objet (80 soumissions). Outre les indicateurs standards tels que le coefficient de corrélation de Spearman et le coefficient kappa de Cohen, nous proposons un nouvel indicateur, la « clémence », qui quantifie la rigueur des évaluations d'experts. Les résultats expérimentaux démontrent que les grilles d'évaluation spécifiques aux questions améliorent l'évaluation logique du code dans un contexte éducatif, fournissant un meilleur retour d'information qui va au-delà de la simple exactitude syntaxique et s'aligne sur les objectifs pédagogiques.
Takeaways, Limitations_
•
Takeaways:
◦
Démontrer l’utilité des rubriques spécifiques aux questions dans l’évaluation du code basé sur LLM.
◦
Présentation de nouvelles possibilités d'évaluation de code à l'aide du LLM dans les environnements éducatifs.
◦
Proposition de « clémence », une nouvelle mesure pour mesurer la rigueur de l’évaluation du code.
◦
Fournir un nouvel ensemble de données d'évaluation dans les domaines des structures de données et des algorithmes et de la programmation orientée objet.
•
Limitations:
◦
La taille de l’ensemble de données présenté est relativement petite.
◦
Des recherches supplémentaires sont nécessaires sur la généralisabilité à travers différents langages de programmation et types de tâches.
◦
Une validation plus poussée de l’objectivité et de la fiabilité de l’indicateur « Clémence » est nécessaire.
◦
Il est nécessaire d’automatiser et d’améliorer l’efficacité de la génération de critères d’évaluation spécifiques aux questions.