Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SciReplicate-Bench : Analyse comparative des LLM en reproduction algorithmique pilotée par agents à partir d'articles de recherche

Created by
  • Haebom

Auteur

Yanzheng Xiang, Hanqi Yan, Shuyin Ouyang, Lin Gui, Yulan He

Contour

Cette étude évalue des modèles de langage à grande échelle (MLH) générant du code à partir de descriptions d'algorithmes issues d'articles récents sur le TALN. Cette tâche requiert deux compétences clés : la compréhension algorithmique (la capacité à synthétiser les informations issues d'articles et de la littérature académique pour comprendre la logique d'implémentation) et l'expertise en codage (la capacité à identifier les dépendances et à implémenter correctement les API requises). Afin de garantir une évaluation rigoureuse, nous présentons SciReplicate-Bench, un benchmark composé de 100 tâches issues de 36 articles de TALN publiés en 2024. Ce benchmark inclut des annotations détaillées et des cas de test complets. En nous appuyant sur SciReplicate-Bench, nous proposons Sci-Reproducer, un framework à double agent composé d'un agent papier, qui interprète les concepts algorithmiques de la littérature, et d'un agent code, qui récupère les dépendances des référentiels et implémente des solutions. Pour évaluer la compréhension algorithmique, nous introduisons la précision du graphe d'inférence, qui quantifie la similarité entre le graphe d'inférence généré et le graphe d'inférence de référence dérivé des annotations et de la structure du code. Pour évaluer la qualité de l'implémentation, nous utilisons la précision d'exécution, CodeBLEU et les métriques de dépendance du référentiel/rappel d'API. Dans nos expériences, nous évaluons divers modèles LLM robustes de non-inférence et d'inférence comme modèles de référence. Le LLM le plus performant utilisant \ModelName n'a atteint qu'une précision de 39 %, ce qui souligne la difficulté de l'analyse comparative. Notre analyse a révélé que l'absence ou l'incohérence des descriptions d'algorithmes constituait un obstacle majeur à une reproductibilité réussie. Le benchmark et le code sont disponibles à l' adresse https://github.com/xyzCS/SciReplicate-Bench , et la page d'accueil du projet à l' adresse https://xyzcs.github.io/scireplicate.github.io/에서 .

Takeaways, Limitations

Takeaways:
Fournit des critères d'évaluation rigoureux et des repères (SciReplicate-Bench) pour la compréhension des algorithmes et les compétences de génération de code du LLM.
Présentation de nouvelles mesures pour évaluer la compréhension des algorithmes et les capacités d'implémentation du code (précision du graphique d'inférence, précision d'exécution, CodeBLEU, dépendance du référentiel/rappel de l'API).
Met clairement en évidence les limites de la reproductibilité algorithmique actuelle du LLM (faible précision d'exécution des modèles les plus performants).
Nous montrons que la qualité de la description de l’algorithme a un impact significatif sur le succès de la génération de code.
Limitations:
Le nombre de documents et de tâches inclus dans le benchmark peut être limité.
Une prise en compte complète des indicateurs d’évaluation est nécessaire, et il existe une possibilité de biais en faveur d’indicateurs spécifiques.
Les types de LLM utilisés peuvent être limités et il est nécessaire d’évaluer une gamme plus large de modèles.
Il est difficile d’exclure complètement l’influence de facteurs externes tels que le caractère incomplet de la description de l’algorithme.
👍