Arxiv hàng ngày

Đây là trang tổng hợp các bài báo về trí tuệ nhân tạo được xuất bản trên toàn thế giới.
Trang này sử dụng Google Gemini để tóm tắt nội dung và hoạt động phi lợi nhuận.
Bản quyền của các bài báo thuộc về tác giả và tổ chức liên quan; khi chia sẻ, chỉ cần ghi rõ nguồn.

CodeJudgeBench: Đánh giá chuẩn LLM-as-a-Judge cho các nhiệm vụ lập trình

Created by
  • Haebom

Tác giả

Hongchao Jiang, Yiming Chen, Yushi Cao, Hung-yi Lee, Robby T. Tan

Phác thảo

Bài báo này giới thiệu CodeJudgeBench, một chuẩn mực mới sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ đánh giá mã (LLM-as-a-Judge). CodeJudgeBench được thiết kế để đánh giá hiệu suất của các mô hình LLM-as-a-Judge trên ba tác vụ mã hóa: tạo mã, sửa đổi mã và tạo thử nghiệm đơn vị. Đánh giá toàn diện 26 mô hình LLM-as-a-Judge, chúng tôi nhận thấy rằng các mô hình tiên tiến có khả năng suy luận vượt trội đáng kể so với các mô hình không có khả năng suy luận. Ngay cả các mô hình suy luận tương đối nhỏ, chẳng hạn như Qwen3-8B, cũng vượt trội hơn các mô hình LLM-as-a-Judge được đào tạo đặc biệt với kích thước lên tới 70B tới 70%. Tuy nhiên, tất cả các mô hình đều thể hiện tính ngẫu nhiên đáng kể khi đánh giá các tác vụ mã hóa và trong các tác vụ so sánh từng cặp, ngay cả việc thay đổi thứ tự trình bày phản hồi cũng ảnh hưởng đáng kể đến độ chính xác. Hơn nữa, chúng tôi quan sát thấy hiệu suất của các mô hình LLM-as-a-Judge khác nhau khi đánh giá mã và các bài kiểm tra đơn vị được viết bởi các LLM khác nhau. Độ nhạy này làm dấy lên lo ngại về độ tin cậy và tính nhất quán của LLM-as-a-Judge trong các tình huống mã hóa. Cuối cùng, chúng tôi đã nghiên cứu chiến lược gợi ý tối ưu cho LLM-as-a-Judge, nhận thấy rằng so sánh từng cặp vượt trội hơn so với phán đoán điểm số đơn, và việc giữ lại các nhận xét và suy luận từ toàn bộ phản hồi LLM chưa qua xử lý đã cải thiện hiệu suất phán đoán.

Takeaways, Limitations

Takeaways:
CodeJudgeBench cung cấp chuẩn mực để đánh giá hiệu suất của các mô hình LLM-as-a-Judge.
Những người có bằng LLM có kỹ năng tư duy phản biện sẽ thực hiện tốt hơn các nhiệm vụ đánh giá mã.
Ngay cả những mô hình tương đối nhỏ cũng có thể hoạt động tốt hơn những mô hình lớn hơn.
Chúng tôi thấy rằng chiến lược gợi ý bao gồm so sánh từng cặp và thông tin chú thích và suy luận là hiệu quả.
Limitations:
Tất cả các mô hình LLM-as-a-Judge vẫn thể hiện tính ngẫu nhiên đáng kể.
Thứ tự trình bày câu trả lời có thể ảnh hưởng đáng kể đến kết quả đánh giá.
Không có sự nhất quán trong kết quả đánh giá cho mã được tạo bởi các LLM khác nhau.
Người ta lo ngại về độ tin cậy và tính nhất quán của chương trình LLM-as-a-Judge.
👍