Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

Tiêu chí chấm điểm là tất cả những gì bạn cần: Nâng cao việc đánh giá mã dựa trên LLM với tiêu chí chấm điểm dành riêng cho câu hỏi

Created by
  • Haebom

Tác giả

Aditya Pathak, Rachit Gandhi, Vaibhav Uttam, Arnav Ramamoorthy, Pratyush Ghosh, Aaryan Raj Jindal, Shreyash Verma, Aditya Mittal, Aashna Ased, Chirag Khatri, Yashwanth Nakka, Devansh, Jagat Sesh Challa, Dhruv Kumar

Phác thảo

Bài báo này tập trung vào việc đánh giá mã bằng mô hình ngôn ngữ quy mô lớn (LLM) và đề xuất một phương pháp tiếp cận mới dựa trên đa tác tử, sử dụng các tiêu chí chấm điểm theo câu hỏi cụ thể thay vì các tiêu chí chấm điểm truyền thống không phụ thuộc vào câu hỏi. Mặc dù các nghiên cứu trước đây tập trung vào việc tạo mã bằng LLM, nghiên cứu về đánh giá mã vẫn còn rất hạn chế, và bài báo này nhằm mục đích lấp đầy khoảng trống đó. Để giải quyết tình trạng thiếu bộ dữ liệu đánh giá đầy đủ, chúng tôi giới thiệu hai bộ dữ liệu mới: một bộ dành cho các bài tập về cấu trúc dữ liệu và thuật toán (150 bài nộp) và bộ còn lại dành cho các bài tập lập trình hướng đối tượng (80 bài nộp). Bên cạnh các thước đo tiêu chuẩn như hệ số tương quan Spearman và hệ số kappa Cohen, chúng tôi đề xuất một thước đo mới, "độ khoan dung", để định lượng tính nghiêm ngặt của các đánh giá chuyên gia. Kết quả thực nghiệm chứng minh rằng các tiêu chí chấm điểm theo câu hỏi cụ thể nâng cao việc đánh giá logic mã trong môi trường giáo dục, cung cấp phản hồi tốt hơn, vượt ra ngoài sự chính xác về cú pháp và phù hợp với các mục tiêu giáo dục.

Takeaways, Limitations

Takeaways:
Thể hiện tính hữu ích của tiêu chí chấm điểm câu hỏi cụ thể trong đánh giá mã dựa trên LLM.
Trình bày những khả năng mới để đánh giá mã bằng LLM trong môi trường giáo dục.
Đề Xuất 'Độ khoan hồng', một thước đo mới để đo lường mức độ nghiêm ngặt của việc đánh giá mã.
Cung cấp bộ dữ liệu đánh giá mới trong lĩnh vực cấu trúc dữ liệu, thuật toán và lập trình hướng đối tượng.
Limitations:
Kích thước của tập dữ liệu được trình bày tương đối nhỏ.
Cần có thêm nghiên cứu về khả năng khái quát hóa trên nhiều ngôn ngữ lập trình và loại tác vụ khác nhau.
Cần phải xác nhận thêm tính khách quan và độ tin cậy của chỉ số 'Khoan dung'.
Cần phải tự động hóa và cải thiện hiệu quả của việc tạo ra các tiêu chí đánh giá cụ thể cho từng câu hỏi.
👍