[공지사항]을 빙자한 안부와 근황 
Show more

Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CodeAssistBench (CAB): Bộ dữ liệu & Đánh giá chuẩn cho Hỗ trợ mã dựa trên trò chuyện nhiều lượt

Created by
  • Haebom

Tác giả

Myeongsoo Kim, Shweta Garg, Baishakhi Ray, Varun Kumar, Anoop Deoras

Phác thảo

Trong bài báo này, chúng tôi trình bày CodeAssistBench (CAB), một khuôn khổ chuẩn mực mới để đánh giá hỗ trợ lập trình đa vòng sử dụng cơ sở mã thực tế nhằm khắc phục những hạn chế của các chuẩn mực hiện tại tập trung vào việc tạo mã. CAB tạo ra một tập dữ liệu có khả năng tự động mở rộng bằng cách sử dụng dữ liệu sự cố GitHub và đánh giá các mô hình trong môi trường cơ sở mã được đóng gói. Chúng tôi đánh giá các mô hình ngôn ngữ quy mô lớn (LLM) hàng đầu trên một bộ thử nghiệm bao gồm 231 kho lưu trữ, 7 ngôn ngữ lập trình và 3.286 câu hỏi lập trình thực tế. Chúng tôi nhận thấy hiệu suất của chúng trong môi trường dự án phức tạp thấp hơn đáng kể so với việc trả lời câu hỏi đơn lẻ (lên đến 16,49% đối với các câu hỏi CAB so với 70-83% đối với các câu hỏi Stack Overflow). Điều này cho thấy khoảng cách hiệu suất đáng kể giữa việc trả lời câu hỏi đơn giản và việc cung cấp hỗ trợ trong các tình huống phức tạp, cụ thể của dự án.

Takeaways, Limitations

Takeaways:
Nhấn mạnh tầm quan trọng của việc đánh giá hỗ trợ lập trình nhiều vòng bằng cách sử dụng cơ sở mã thực.
Giới thiệu một khuôn khổ chuẩn mực mới (CAB) khắc phục được những hạn chế của chuẩn mực hiện tại.
Trình bày rõ ràng vấn đề suy giảm hiệu suất khi áp dụng LLM vào môi trường thực tế.
Nâng cao nhu cầu phát triển công nghệ hỗ trợ lập trình trong bối cảnh dự án phức tạp.
Limitations:
Phạm vi của tập dữ liệu CAB có thể bị giới hạn trong một kho lưu trữ GitHub cụ thể.
Cần phải xác nhận thêm về chất lượng và tính đa dạng của các tập dữ liệu được tạo tự động.
Nó có thể không phản ánh hoàn toàn tình hình thực tế của người dùng.
Cần phải có lời giải thích rõ ràng về loại và phiên bản LLM được sử dụng trong đánh giá.
👍