Bài báo này khám phá việc sử dụng các mô hình ngôn ngữ quy mô lớn (LLM) làm công cụ đánh giá. Các phương pháp tinh chỉnh có giám sát (SFT) hiện có có những hạn chế trong các tác vụ đòi hỏi suy luận phức tạp. Bài báo này nghiên cứu xem liệu các công cụ đánh giá LLM có được hưởng lợi đáng kể từ hiệu suất suy luận được cải thiện hay không. Kết quả của chúng tôi cho thấy mối tương quan nghịch giữa hiệu suất SFT được cải thiện và tỷ lệ các mẫu có nhu cầu suy luận cao. Để khắc phục hạn chế này, chúng tôi đề xuất JudgeLRM, một LLM mới dựa trên học tăng cường (RL) sử dụng phần thưởng do người đánh giá điều khiển. JudgeLRM vượt trội hơn các mô hình dựa trên SFT và các mô hình suy luận tiên tiến, đặc biệt là trong các tác vụ đánh giá đòi hỏi suy luận sâu. JudgeLRM-3B vượt trội hơn GPT-4 2,79% về điểm F1 và JudgeLRM-7B vượt trội hơn DeepSeek-R1 2,79%.