En este artículo, evaluamos la eficacia de un modelo de aprendizaje de refuerzo multiobjetivo (REMOR) de inferencia para superar las limitaciones de la revisión por pares (elogios superficiales y excesivos). Mediante una función de recompensa multifacética adaptada a la revisión (autocrítica, novedad y relevancia de la revisión para el manuscrito), perfeccionamos el modelo DeepSeek-R1-Distill-Qwen-7B en PeerRT (un conjunto de datos de revisión de conferencias de IA de alta calidad, rico en procesos de inferencia) y entrenamos dos modelos, REMOR-H (que recompensa la alineación humana) y REMOR-U (que recompensa uniformemente), aplicando la Optimización de Políticas Relativa de Grupo (GRPO). Curiosamente, la recompensa por alineación penaliza aspectos generalmente asociados con buenas revisiones, lo que permite a REMOR-U generar retroalimentación cualitativamente más sustancial. Como resultado, REMOR-U y REMOR-H obtienen más del doble de recompensas promedio que los revisores humanos, los sistemas de IA de vanguardia sin inferencia y los modelos de referencia LLM comerciales comunes. Observamos que las mejores revisiones de IA y humanas son cualitativamente similares, pero REMOR evita la larga cola de las revisiones humanas de baja calidad. La inferencia es clave para estas mejoras, y contribuimos al avance de este campo con el lanzamiento de la función de Recompensa por Revisión por Pares Alineada con el Personal Humano (HPRR), el conjunto de datos PeerRT y el modelo REMOR.