[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

SWE-MERA: Một chuẩn mực động để đánh giá tác nhân các mô hình ngôn ngữ lớn trên các tác vụ kỹ thuật phần mềm

Created by
  • Haebom

Tác giả

Pavel Adamenko, Mikhail Ivanov, Aidar Valeev, Rodion Levichev, Pavel Zadorozhny, Ivan Lopatin, Dmitry Babayev, Alena Fenogenova, Valentin Malykh

Phác thảo

Bài báo này chỉ ra Limitations của các chuẩn mực hiện có được sử dụng trong lĩnh vực kỹ thuật phần mềm, đặc biệt là tập dữ liệu SWE-bench, và đề xuất một chuẩn mực mới, SWE-MERA, để giải quyết vấn đề này. SWE-bench chỉ ra rằng vấn đề ô nhiễm dữ liệu (rò rỉ giải pháp trực tiếp và các trường hợp kiểm thử không phù hợp) là rất nghiêm trọng và làm giảm độ tin cậy, và SWE-MERA hướng đến việc giải quyết vấn đề này bằng cách tự động thu thập các vấn đề GitHub thực tế và tiến hành xác minh chất lượng nghiêm ngặt. Hiện tại, nó cung cấp khoảng 10.000 tác vụ tiềm năng và 300 mẫu, và kết quả đánh giá bằng tác nhân mã hóa Aider cho thấy rõ sự khác biệt về hiệu suất của các LLM tiên tiến. Hiệu suất của hơn một chục LLM tiên tiến được đánh giá dựa trên các tác vụ được thu thập từ tháng 9 năm 2024 đến tháng 6 năm 2025.

Takeaways, Limitations

Takeaways:
Chúng tôi tiết lộ các vấn đề về ô nhiễm dữ liệu trong tập dữ liệu SWE-bench hiện có và đề xuất nhu cầu về một chuẩn mực mới.
Chúng tôi đề xuất một chuẩn mực thực tế SWE-MERA bằng cách sử dụng các vấn đề GitHub thực tế và xây dựng một quy trình thu thập dữ liệu tự động và xác minh chất lượng.
Chúng tôi so sánh và đánh giá hiệu suất của nhiều LLM hiện đại và chứng minh sự khác biệt của mô hình.
Góp phần thúc đẩy sự phát triển của LLM trong Kỹ thuật phần mềm thông qua các tiêu chuẩn năng động được cập nhật liên tục.
Limitations:
Tiêu chuẩn này có quy mô hạn chế, chỉ có 300 mẫu trong số 10.000 nhiệm vụ tiềm năng hiện có.
Có thể còn thiếu thông tin chi tiết cụ thể về quy trình đảm bảo chất lượng của SWE-MERA.
Kết quả đánh giá có thể phụ thuộc vào tác nhân mã hóa cụ thể.
Vì tập dữ liệu này dựa trên các vấn đề của GitHub nên nó có thể thiên về một số loại vấn đề kỹ thuật phần mềm nhất định.
👍