Dans cet article, nous évaluons dans quelle mesure un LLM d'inférence entraîné par l'apprentissage par renforcement multi-objectifs (REMOR) surmonte les limites de l'évaluation par les pairs (éloges superficiels et excessifs). À l'aide d'une fonction de récompense multidimensionnelle adaptée à l'évaluation humaine (autocritique de l'évaluation, nouveauté et pertinence de l'évaluation par rapport au manuscrit), nous affinons le modèle DeepSeek-R1-Distill-Qwen-7B sur PeerRT (un jeu de données d'évaluation de conférences par IA de haute qualité, riche en processus d'inférence) et entraînons deux modèles, REMOR-H (récompense l'alignement humain) et REMOR-U (récompense uniforme), en appliquant la méthode d'optimisation des politiques relatives de groupe (GRPO). Il est intéressant de noter que la récompense pour l'alignement humain pénalise les aspects généralement associés aux bonnes évaluations, ce qui permet à REMOR-U de générer des commentaires qualitativement plus substantiels. Ainsi, REMOR-U et REMOR-H obtiennent des récompenses plus de deux fois supérieures à celles des évaluateurs humains, des systèmes d'IA de pointe sans inférence et des modèles de référence LLM commerciaux courants. Nous constatons que les meilleures évaluations par IA et par des évaluateurs humains sont qualitativement similaires, mais REMOR évite la longue traîne des évaluations humaines de faible qualité. L'inférence est essentielle à ces améliorations, et nous contribuons à l'avancement de ce domaine en publiant la fonction de récompense pour l'évaluation par les pairs axée sur l'humain (HPRR), le jeu de données PeerRT et le modèle REMOR.