Este artículo aborda el reto de equilibrar los criterios de evaluación objetivos y subjetivos al aplicar el aprendizaje por refuerzo (AR) a tareas del mundo real. En particular, resulta difícil definir una señal de recompensa fiable para un modelo de lenguaje posterior al entrenamiento en tareas que carecen de una verdad fundamental clara. Los métodos existentes basados en preferencias ofrecen una solución, pero se basan en funciones de recompensa opacas, difíciles de interpretar y susceptibles a correlaciones espurias. En este artículo, presentamos un marco, $\textbf{Rúbricas como Recompensas}$ (RaR), que utiliza rúbricas de evaluación estructuradas tipo lista de verificación como señales de recompensa interpretables. Se aplica al entrenamiento según políticas con GRPO y demuestra una mejora relativa del rendimiento de hasta un 28 % con respecto a los enfoques ingenuos basados en Likert existentes en HealthBench-1k, logrando un rendimiento igual o superior al de las señales de recompensa derivadas de referencias de autores expertos. Al tratar las rúbricas de evaluación como señales de recompensa estructuradas, RaR permite que los modelos de juicio a pequeña escala se ajusten mejor a las preferencias humanas y mantengan un rendimiento robusto en todas las escalas del modelo.