Bài báo này chỉ ra Limitations của các chuẩn mực hiện có được sử dụng trong lĩnh vực kỹ thuật phần mềm, đặc biệt là tập dữ liệu SWE-bench, và đề xuất một chuẩn mực mới, SWE-MERA, để giải quyết vấn đề này. SWE-bench chỉ ra rằng vấn đề ô nhiễm dữ liệu (rò rỉ giải pháp trực tiếp và các trường hợp kiểm thử không phù hợp) là rất nghiêm trọng và làm giảm độ tin cậy, và SWE-MERA hướng đến việc giải quyết vấn đề này bằng cách tự động thu thập các vấn đề GitHub thực tế và tiến hành xác minh chất lượng nghiêm ngặt. Hiện tại, nó cung cấp khoảng 10.000 tác vụ tiềm năng và 300 mẫu, và kết quả đánh giá bằng tác nhân mã hóa Aider cho thấy rõ sự khác biệt về hiệu suất của các LLM tiên tiến. Hiệu suất của hơn một chục LLM tiên tiến được đánh giá dựa trên các tác vụ được thu thập từ tháng 9 năm 2024 đến tháng 6 năm 2025.