Bài báo này giới thiệu CodeJudgeBench, một chuẩn mực mới sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ đánh giá mã (LLM-as-a-Judge). CodeJudgeBench được thiết kế để đánh giá hiệu suất của các mô hình LLM-as-a-Judge trên ba tác vụ mã hóa: tạo mã, sửa đổi mã và tạo thử nghiệm đơn vị. Đánh giá toàn diện 26 mô hình LLM-as-a-Judge, chúng tôi nhận thấy rằng các mô hình tiên tiến có khả năng suy luận vượt trội đáng kể so với các mô hình không có khả năng suy luận. Ngay cả các mô hình suy luận tương đối nhỏ, chẳng hạn như Qwen3-8B, cũng vượt trội hơn các mô hình LLM-as-a-Judge được đào tạo đặc biệt với kích thước lên tới 70B tới 70%. Tuy nhiên, tất cả các mô hình đều thể hiện tính ngẫu nhiên đáng kể khi đánh giá các tác vụ mã hóa và trong các tác vụ so sánh từng cặp, ngay cả việc thay đổi thứ tự trình bày phản hồi cũng ảnh hưởng đáng kể đến độ chính xác. Hơn nữa, chúng tôi quan sát thấy hiệu suất của các mô hình LLM-as-a-Judge khác nhau khi đánh giá mã và các bài kiểm tra đơn vị được viết bởi các LLM khác nhau. Độ nhạy này làm dấy lên lo ngại về độ tin cậy và tính nhất quán của LLM-as-a-Judge trong các tình huống mã hóa. Cuối cùng, chúng tôi đã nghiên cứu chiến lược gợi ý tối ưu cho LLM-as-a-Judge, nhận thấy rằng so sánh từng cặp vượt trội hơn so với phán đoán điểm số đơn, và việc giữ lại các nhận xét và suy luận từ toàn bộ phản hồi LLM chưa qua xử lý đã cải thiện hiệu suất phán đoán.