Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Lo bueno, lo malo y lo constructivo: medición automática de la utilidad de la revisión por pares para los autores

Created by
  • Haebom

Autor

Abdelrahman Sadallah, artista Tim Baumg, Iryna Gurevych, Ted Briscoe

Describir

Este documento tiene como objetivo desarrollar un sistema automatizado para proporcionar a los autores retroalimentación útil durante la revisión por pares. Para abordar las limitaciones de tiempo de los revisores, proponemos cuatro dimensiones clave que mejoran la utilidad de las revisiones: procesabilidad, evidencia y especificidad, verificabilidad y usabilidad. Para evaluar estas dimensiones y facilitar el desarrollo del modelo, presentamos el conjunto de datos RevUtil, que contiene 1430 comentarios de revisión etiquetados por humanos y 10 000 datos etiquetados sintéticamente. Los datos sintéticos también incluyen justificaciones, que explican las puntuaciones de cada dimensión. Utilizando el conjunto de datos RevUtil, comparamos modelos ajustados que evalúan estas dimensiones y generan justificaciones. Los resultados experimentales muestran que los modelos ajustados logran un acuerdo con los humanos, comparable a, o en algunos casos superando, a potentes modelos de forma cerrada como GPT-4o. Sin embargo, las revisiones generadas por máquinas generalmente tienen un peor rendimiento que los revisores humanos en las cuatro dimensiones.

Takeaways, Limitations

Takeaways:
Contribuyó al desarrollo de un sistema automatizado de revisión por pares al presentar cuatro aspectos clave (capacidad de acción, fundamento y especificidad, verificabilidad y utilidad) para evaluar la utilidad de la revisión.
Contribuya al avance de la investigación relacionada proporcionando el conjunto de datos RevUtil.
Demostramos que los modelos optimizados pueden lograr un rendimiento a nivel humano.
Limitations:
Dado que el modelo se entrenó utilizando datos sintéticos, es necesario verificar su rendimiento de generalización en datos reales.
Falta un análisis profundo de por qué las reseñas generadas por máquinas tienen un rendimiento inferior al de las reseñas humanas.
Puede haber otros aspectos importantes además de estos cuatro.
👍