Cet article présente Limitations de SWE-Bench Verified, un benchmark pour l'évaluation des capacités d'ingénierie logicielle des modèles de langage à grande échelle (LLM). Il est avancé que, bien que les LLM les plus récents affichent des performances élevées sur SWE-Bench, cela pourrait être dû à la mémorisation ou à la contamination des données plutôt qu'à une véritable capacité à résoudre des problèmes. Pour le vérifier, nous présentons les résultats expérimentaux de deux tâches : l'identification des chemins de fichiers bogués en utilisant uniquement les descriptions des problèmes et la reproduction de fonctions en utilisant uniquement le contexte du fichier actuel et les descriptions des problèmes. Par conséquent, les LLM les plus récents affichent une grande précision pour les données incluses dans SWE-Bench, mais une faible précision pour les données externes, ce qui suggère un effet de mémorisation. Par conséquent, nous concluons qu'un nouveau benchmark robuste à la contamination des données est nécessaire pour évaluer de manière fiable la capacité de codage des LLM.