Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

REMOR: Generación automatizada de revisiones por pares con razonamiento LLM y aprendizaje por refuerzo multiobjetivo

Created by
  • Haebom

Autor

Pawin Taechoyotin, Daniel Acuña

Describir

En este artículo, evaluamos la eficacia de un modelo de aprendizaje de refuerzo multiobjetivo (REMOR) de inferencia para superar las limitaciones de la revisión por pares (elogios superficiales y excesivos). Mediante una función de recompensa multifacética adaptada a la revisión (autocrítica, novedad y relevancia de la revisión para el manuscrito), perfeccionamos el modelo DeepSeek-R1-Distill-Qwen-7B en PeerRT (un conjunto de datos de revisión de conferencias de IA de alta calidad, rico en procesos de inferencia) y entrenamos dos modelos, REMOR-H (que recompensa la alineación humana) y REMOR-U (que recompensa uniformemente), aplicando la Optimización de Políticas Relativa de Grupo (GRPO). Curiosamente, la recompensa por alineación penaliza aspectos generalmente asociados con buenas revisiones, lo que permite a REMOR-U generar retroalimentación cualitativamente más sustancial. Como resultado, REMOR-U y REMOR-H obtienen más del doble de recompensas promedio que los revisores humanos, los sistemas de IA de vanguardia sin inferencia y los modelos de referencia LLM comerciales comunes. Observamos que las mejores revisiones de IA y humanas son cualitativamente similares, pero REMOR evita la larga cola de las revisiones humanas de baja calidad. La inferencia es clave para estas mejoras, y contribuimos al avance de este campo con el lanzamiento de la función de Recompensa por Revisión por Pares Alineada con el Personal Humano (HPRR), el conjunto de datos PeerRT y el modelo REMOR.

Takeaways, Limitations

Takeaways:
Sugerir la posibilidad de desarrollar un sistema de IA que supere las limitaciones de la revisión por pares humanos a través del aprendizaje de refuerzo multiobjetivo.
Verificar la viabilidad de generar revisiones por pares de alta calidad y a nivel humano.
Sugiere una posible solución al problema de las revisiones humanas de baja calidad.
Facilitar la investigación de seguimiento mediante la publicación de la función HPRR, el conjunto de datos PeerRT y el modelo REMOR.
Demostramos que la inferencia juega un papel fundamental en la mejora del rendimiento de los sistemas de revisión por pares basados ​​en IA.
Limitations:
Se necesita una mayor validación de la escala y generalización del conjunto de datos PeerRT.
Existe la posibilidad de que el rendimiento del modelo REMOR esté sesgado hacia ciertos conjuntos de datos.
Es necesario tener en cuenta la subjetividad y el sesgo de las evaluaciones humanas.
Se necesita más investigación sobre el mantenimiento y la estabilidad del rendimiento del modelo a largo plazo.
👍