Cet article explore l'utilisation de modèles de langage à grande échelle (MLH) comme évaluateurs. Les approches de réglage fin supervisé (SFT) existantes présentent des limites pour les tâches nécessitant une inférence complexe. Cet article examine si les évaluateurs LLM bénéficient considérablement d'une amélioration des performances d'inférence. Nos résultats révèlent une corrélation négative entre l'amélioration des performances SFT et la proportion d'échantillons présentant des exigences d'inférence élevées. Pour surmonter cette limite, nous proposons JudgeLRM, un nouveau LLM basé sur l'apprentissage par renforcement (RL) qui utilise des récompenses pilotées par le juge. JudgeLRM surpasse les modèles basés sur SFT et les modèles d'inférence de pointe, en particulier pour les tâches de jugement nécessitant une inférence approfondie. JudgeLRM-3B surpasse GPT-4 de 2,79 % en score F1, et JudgeLRM-7B surpasse DeepSeek-R1 de 2,79 %.