Bài báo này đề cập đến thách thức trong việc cân bằng các tiêu chí đánh giá khách quan và chủ quan khi áp dụng học tăng cường (RL) vào các nhiệm vụ thực tế. Cụ thể, rất khó để xác định tín hiệu khen thưởng đáng tin cậy cho mô hình ngôn ngữ sau đào tạo trong các nhiệm vụ thiếu sự thật cơ bản rõ ràng. Các phương pháp dựa trên sở thích hiện có cung cấp một giải pháp, nhưng chúng dựa trên các hàm khen thưởng không rõ ràng, khó diễn giải và dễ bị ảnh hưởng bởi các tương quan giả. Trong bài báo này, chúng tôi trình bày một khuôn khổ, $\textbf{Rubrics as Rewards}$ (RaR), sử dụng các tiêu chí đánh giá theo kiểu danh sách kiểm tra có cấu trúc làm tín hiệu khen thưởng có thể diễn giải. Nó được áp dụng cho đào tạo theo chính sách với GRPO và chứng minh hiệu suất tương đối cải thiện tới 28% so với các phương pháp dựa trên Likert đơn giản hiện có trên HealthBench-1k, đạt hiệu suất ngang bằng hoặc vượt trội hơn các tín hiệu khen thưởng thu được từ các tài liệu tham khảo do chuyên gia biên soạn. Bằng cách coi các tiêu chí đánh giá như các tín hiệu khen thưởng có cấu trúc, RaR cho phép các mô hình đánh giá quy mô nhỏ phù hợp hơn với sở thích của con người và duy trì hiệu suất mạnh mẽ trên các thang đo mô hình.