Este artículo señala Limitations de SWE-Bench Verified, un punto de referencia para evaluar las capacidades de ingeniería de software de modelos de lenguaje a gran escala (LLM). Se argumenta que, si bien los LLM más recientes muestran un alto rendimiento en SWE-Bench, esto puede deberse a la memorización o contaminación de datos en lugar de a la verdadera capacidad de resolución de problemas. Para verificar esto, presentamos los resultados experimentales de dos tareas: identificar rutas de archivos con errores utilizando solo descripciones de problemas y reproducir funciones utilizando solo el contexto de archivo actual y las descripciones de problemas. Como resultado, los LLM más recientes muestran una alta precisión para los datos incluidos en SWE-Bench, pero una baja precisión para datos externos, lo que sugiere un efecto de memorización. Por lo tanto, concluimos que se necesita un nuevo punto de referencia robusto a la contaminación de datos para evaluar de forma fiable la capacidad de codificación de los LLM.