Este artículo explora el uso de modelos de lenguaje a gran escala (LLM) como evaluadores. Los enfoques existentes de ajuste fino supervisado (SFT) presentan limitaciones en tareas que requieren inferencia compleja. Este artículo investiga si los evaluadores de LLM se benefician sustancialmente de una mejora en el rendimiento de la inferencia. Nuestros resultados revelan una correlación negativa entre la mejora en el rendimiento de SFT y la proporción de muestras con altas exigencias de inferencia. Para superar esta limitación, proponemos JudgeLRM, un novedoso LLM basado en aprendizaje por refuerzo (RL) que utiliza recompensas impulsadas por el evaluador. JudgeLRM supera a los modelos basados en SFT y a los modelos de inferencia de vanguardia, especialmente en tareas de juicio que requieren inferencia profunda. JudgeLRM-3B supera a GPT-4 en un 2,79 % en la puntuación F1, y JudgeLRM-7B supera a DeepSeek-R1 en un 2,79 %.