Bài báo này nêu bật lỗ hổng trong SWE-Bench Verified, một chuẩn mực để đánh giá khả năng kỹ thuật phần mềm của các mô hình ngôn ngữ quy mô lớn (LLM). Mặc dù các LLM gần đây thể hiện hiệu suất cao trên SWE-Bench, nhưng điều này có thể là do ghi nhớ hoặc nhiễm bẩn dữ liệu hơn là khả năng giải quyết vấn đề thực tế. Để xác minh điều này, bài báo trình bày hai nhiệm vụ chẩn đoán: xác định đường dẫn tệp chỉ dựa trên mô tả vấn đề và tái tạo các hàm chỉ dựa trên bối cảnh tệp hiện tại và mô tả vấn đề. Kết quả thử nghiệm cho thấy trong khi các mô hình tiên tiến thể hiện độ chính xác cao trên dữ liệu có trong SWE-Bench, độ chính xác của chúng giảm mạnh trên dữ liệu không có trong đó, làm dấy lên lo ngại về độ tin cậy của kết quả đánh giá của SWE-Bench. Điều này nhấn mạnh nhu cầu về một chuẩn mực mạnh mẽ hơn và chống nhiễm bẩn hơn để đánh giá khả năng mã hóa LLM.