Este artículo destaca la falla Limitations en SWE-Bench Verified, un punto de referencia para evaluar las capacidades de ingeniería de software de los modelos de lenguaje a gran escala (LLM). Si bien los LLM recientes demuestran un alto rendimiento en SWE-Bench, esto puede deberse a la memorización o contaminación de datos en lugar de a la capacidad real de resolución de problemas. Para verificar esto, el artículo presenta dos tareas de diagnóstico: identificar rutas de archivos basándose únicamente en descripciones de problemas y reproducir funciones basándose únicamente en el contexto del archivo actual y las descripciones de problemas. Los resultados experimentales muestran que, si bien los modelos de vanguardia exhiben una alta precisión en los datos incluidos en SWE-Bench, su precisión disminuye drásticamente en los datos no incluidos, lo que genera inquietudes sobre la confiabilidad de los resultados de la evaluación de SWE-Bench. Esto resalta la necesidad de un punto de referencia más robusto y resistente a la contaminación para evaluar las capacidades de codificación de LLM.