Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

L'illusion du SWE-Bench : quand les LLM de pointe se souviennent au lieu de raisonner

Created by
  • Haebom

Auteur

Shanchao Liang, Spandan Garg, Roshanak Zilouchian Moghaddam

Contour

Cet article met en évidence une faille dans SWE-Bench Verified, un benchmark permettant d'évaluer les capacités d'ingénierie logicielle des modèles de langage à grande échelle (LLM). Si les LLM récents affichent d'excellentes performances sur SWE-Bench, cela pourrait être dû à la mémorisation ou à la contamination des données plutôt qu'à une réelle capacité de résolution de problèmes. Pour vérifier cela, l'article présente deux tâches de diagnostic : l'identification des chemins d'accès aux fichiers en se basant uniquement sur les descriptions des problèmes et la reproduction des fonctions en se basant uniquement sur le contexte actuel du fichier et les descriptions des problèmes. Les résultats expérimentaux montrent que si les modèles de pointe affichent une grande précision sur les données incluses dans SWE-Bench, leur précision chute fortement sur les données non incluses, ce qui soulève des inquiétudes quant à la fiabilité des résultats d'évaluation de SWE-Bench. Cela souligne la nécessité d'un benchmark plus robuste et résistant à la contamination pour évaluer les capacités de codage des LLM.

Takeaways, Limitations

Takeaways: Ceci démontre que les critères de référence existants, tels que SWE-Bench Verified, peuvent ne pas évaluer avec précision les capacités de résolution de problèmes concrets des titulaires d'un LLM. Un critère de référence plus robuste, empêchant la mémorisation et la contamination des données, est nécessaire pour évaluer les performances des titulaires d'un LLM. Une nouvelle méthodologie d'évaluation, qui distingue les capacités de résolution de problèmes généralisées des capacités de mémorisation des titulaires d'un LLM, est nécessaire.
Limitations: Les deux tâches diagnostiques présentées peuvent n'évaluer que des types spécifiques de compétences en résolution de problèmes. Un référentiel plus complet, englobant un éventail plus large de tâches d'ingénierie logicielle, est nécessaire. Les résultats pourraient ne pas être généralisables en raison des caractéristiques de l'ensemble de données utilisé dans cette étude.
👍