본 논문은 대규모 언어 모델(LLM)의 소프트웨어 엔지니어링 능력 평가를 위한 벤치마크인 SWE-Bench Verified의 한계점을 지적한다. 최신 LLM들이 SWE-Bench에서 높은 성능을 보이지만, 이는 진정한 문제 해결 능력보다는 데이터 암기나 오염에 기인할 수 있다는 주장이다. 이를 검증하기 위해, 문제 설명만으로 버그 파일 경로를 식별하는 과제와 현재 파일 맥락과 문제 설명만으로 함수를 재현하는 과제를 제시하고 실험 결과를 제시한다. 결과적으로, 최신 LLM들이 SWE-Bench에 포함된 데이터에 대해서는 높은 정확도를 보이지만, 외부 데이터에는 낮은 정확도를 보임으로써 암기 효과를 시사한다. 따라서 LLM의 코딩 능력을 신뢰성 있게 평가하기 위해서는 데이터 오염에 강건한 새로운 벤치마크가 필요하다고 결론짓는다.