본 논문은 대규모 언어 모델(LLM)의 소프트웨어 엔지니어링 능력 평가를 위한 벤치마크인 SWE-Bench Verified의 한계점을 지적한다. 최신 LLM들이 SWE-Bench에서 높은 성능을 보이지만, 이는 일반적인 문제 해결 능력보다는 데이터 암기 때문일 수 있다는 주장을 제시한다. 이를 위해, 이슈 설명만으로 버그가 있는 파일 경로를 식별하는 진단 과제를 도입하여 실험을 수행하였다. 그 결과, 최첨단 모델들이 SWE-Bench에 포함된 저장소의 이슈에 대해서는 최대 76%의 정확도를 보였으나, 포함되지 않은 저장소의 이슈에 대해서는 최대 53%의 정확도만을 보였다. 이는 모델이 SWE-Bench 데이터를 암기했을 가능성을 시사하며, 기존 평가 결과의 타당성에 대한 우려를 제기하고 더욱 견고한 벤치마크의 필요성을 강조한다.