Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

RepoDebug: Đánh giá gỡ lỗi đa nhiệm vụ và đa ngôn ngữ ở cấp độ kho lưu trữ của các mô hình ngôn ngữ lớn

Created by
  • Haebom

Tác giả

Jingjing Liu, Zeming Liu, Zihao Cheng, Mengliang He, Xiaoming Shi, Yuhang Guo, Xiangrong Zhu, Yuanfang Guo, Yunong Wang, Haifeng Wang

Phác thảo

Bài báo này tập trung vào khả năng gỡ lỗi mã của các mô hình ngôn ngữ quy mô lớn (LLM), đặc biệt là khả năng sửa chữa chương trình tự động của chúng. Chúng tôi nhấn mạnh những hạn chế của các bộ dữ liệu gỡ lỗi mã hiện có, chủ yếu tập trung vào sửa chữa mã ở cấp độ hàm và không tính đến các tình huống thực tế ở cấp độ kho lưu trữ. Do đó, chúng tôi trình bày RepoDebug, một bộ dữ liệu gỡ lỗi mã ở cấp độ kho lưu trữ đa tác vụ và đa ngôn ngữ, bao gồm nhiều tác vụ, ngôn ngữ và loại lỗi khác nhau. RepoDebug hỗ trợ tám ngôn ngữ lập trình, 22 loại lỗi và ba tác vụ gỡ lỗi. Kết quả thử nghiệm trên mười LLM cho thấy ngay cả mô hình hiệu suất cao nhất, Claude 3.5 Sonnect, cũng không hoạt động tốt trong việc gỡ lỗi ở cấp độ kho lưu trữ.

Takeaways, Limitations

Takeaways:
Chúng tôi cung cấp RepoDebug, một bộ dữ liệu gỡ lỗi mã cấp kho lưu trữ thực tế, thiết lập tiêu chuẩn mới để đánh giá hiệu suất gỡ lỗi mã của LLM.
Nó giúp đánh giá khả năng khái quát hóa của LLM bằng cách bao gồm nhiều ngôn ngữ lập trình và loại lỗi khác nhau.
Tài liệu này trình bày rõ ràng trạng thái hiện tại và những hạn chế của khả năng gỡ lỗi mã ở cấp độ kho lưu trữ của LLM.
Limitations:
Bộ dữ liệu RepoDebug có thể chưa bao gồm đầy đủ tất cả các loại lỗi cấp độ kho lưu trữ và ngôn ngữ lập trình.
Các loại LLM được sử dụng trong quá trình đánh giá có thể bị hạn chế.
Nó có thể không phản ánh đầy đủ sự phức tạp của việc gỡ lỗi ở cấp độ kho lưu trữ.
👍