Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới. Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận. Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.
SPICE: Một quy trình dán nhãn SWE-Bench tự động để làm rõ vấn đề, phạm vi kiểm tra và ước tính nỗ lực
Created by
Haebom
Tác giả
Gustavo A. Oliva, Gopi Krishnan Rajbahadur, Aaditya Bhatia, Haoxiang Zhang, Yihao Chen, Zhilong Chen, Arthur Leung, Dayi Lin, Boyuan Chen, Ahmed E. Hassan
Phác thảo
SPICE là một quy trình tự động, có khả năng mở rộng để tạo ra các tập dữ liệu được gắn nhãn chất lượng cao, thiết yếu cho việc học và đánh giá các mô hình nền tảng trong kỹ thuật phần mềm. Nó tự động chú thích các tập dữ liệu theo kiểu SWE-bench với độ rõ ràng về vấn đề, phạm vi kiểm thử và ước tính nỗ lực. Nó kết hợp khám phá mã theo ngữ cảnh, nhắc nhở dựa trên bằng chứng và đồng thuận nhiều lần để tạo ra các nhãn gần giống với chú thích của chuyên gia. Nó được xây dựng dựa trên kinh nghiệm gắn nhãn hơn 800 trường hợp SWE-Gym và đạt được sự đồng thuận cao với dữ liệu SWE-bench Verified do con người gắn nhãn. Nó giảm đáng kể chi phí gắn nhãn 1.000 trường hợp từ khoảng 100.000 đô la cho chú thích thủ công xuống còn 5,10 đô la. Chúng tôi cũng phát hành SPICE Bench, một tập dữ liệu mới bao gồm 6.802 trường hợp được gắn nhãn SPICE từ 291 dự án nguồn mở trong SWE-Gym.
Takeaways, Limitations
•
_____T28496____:
◦
Giảm đáng kể chi phí xây dựng các tập dữ liệu lớn, chất lượng cao để đào tạo các mô hình nền tảng kỹ thuật phần mềm.
◦
ĐóNg góp cho cộng đồng nghiên cứu thông qua các công cụ SPICE và bộ dữ liệu SPICE Bench (cung cấp bộ dữ liệu lớn hơn 13 lần so với SWE-bench Verified).
◦
ĐạT được độ chính xác ở cấp độ chuyên gia với quy trình dán nhãn tự động của chúng tôi.
•
Limitations:
◦
Hiệu suất của SPICE có thể thay đổi tùy thuộc vào đặc điểm của cơ sở mã được sử dụng.
◦
Các loại chú thích hiện được hỗ trợ có thể bị hạn chế (làm rõ vấn đề, phạm vi kiểm tra, ước tính nỗ lực).
◦
Vì đây không phải là hệ thống hoàn toàn tự động nên có thể cần phải xác minh hoặc điều chỉnh thủ công (ví dụ: quy trình đồng thuận nhiều lần).