Takeaways: Ceci démontre que les critères de référence existants, tels que SWE-Bench Verified, peuvent ne pas évaluer avec précision les capacités de résolution de problèmes concrets des titulaires d'un LLM. Un critère de référence plus robuste, empêchant la mémorisation et la contamination des données, est nécessaire pour évaluer les performances des titulaires d'un LLM. Une nouvelle méthodologie d'évaluation, qui distingue les capacités de résolution de problèmes généralisées des capacités de mémorisation des titulaires d'un LLM, est nécessaire.