Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'illusion du SWE-Bench : quand les LLM de pointe se souviennent au lieu de raisonner

Created by
  • Haebom

Auteur

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

Contour

Cet article présente Limitations de SWE-Bench Verified, un benchmark pour l'évaluation des capacités d'ingénierie logicielle des modèles de langage à grande échelle (LLM). Il est avancé que, bien que les LLM les plus récents affichent des performances élevées sur SWE-Bench, cela pourrait être dû à la mémorisation ou à la contamination des données plutôt qu'à une véritable capacité à résoudre des problèmes. Pour le vérifier, nous présentons les résultats expérimentaux de deux tâches : l'identification des chemins de fichiers bogués en utilisant uniquement les descriptions des problèmes et la reproduction de fonctions en utilisant uniquement le contexte du fichier actuel et les descriptions des problèmes. Par conséquent, les LLM les plus récents affichent une grande précision pour les données incluses dans SWE-Bench, mais une faible précision pour les données externes, ce qui suggère un effet de mémorisation. Par conséquent, nous concluons qu'un nouveau benchmark robuste à la contamination des données est nécessaire pour évaluer de manière fiable la capacité de codage des LLM.

Takeaways, Limitations

Takeaways : Remettre en question la fiabilité des référentiels existants, tels que SWE-Bench Verified, et souligner l'importance d'évaluer les performances des titulaires d'un LLM. Proposer une nouvelle méthode d'évaluation qui distingue la véritable capacité de résolution de problèmes de la capacité de mémorisation des titulaires d'un LLM. Suggérer la nécessité d'élaborer un référentiel plus robuste et plus généralisé, fondé sur les préoccupations relatives à la contamination des données.
Limitations: Les deux tâches diagnostiques présentées pourraient se concentrer uniquement sur des types spécifiques de compétences en résolution de problèmes et ne pas refléter pleinement les compétences globales en codage des LLM. Il manque des suggestions précises pour l'élaboration de nouveaux critères de référence. Des résultats expérimentaux supplémentaires sur différents types de LLM et de critères de référence sont nécessaires.
👍