Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Le bon, la brute et le constructif : mesurer automatiquement l’utilité de l’évaluation par les pairs pour les auteurs

Created by
  • Haebom

Auteur

Abdelrahman Sadallah, l'artiste Tim Baumg, Iryna Gurevych, Ted Briscoe

Contour

Cet article vise à développer un système automatisé permettant de fournir aux auteurs des commentaires utiles lors de l'évaluation par les pairs. Pour répondre aux contraintes de temps des évaluateurs, nous proposons quatre dimensions clés qui améliorent l'utilité des évaluations : l'exploitabilité, les preuves et la spécificité, la vérifiabilité et l'utilisabilité. Pour évaluer ces dimensions et faciliter le développement de modèles, nous introduisons l'ensemble de données RevUtil, qui contient 1 430 commentaires d'évaluation étiquetés manuellement et 10 000 données étiquetées synthétiquement. Ces données synthétiques incluent également des justifications expliquant les scores de chaque dimension. À l'aide de l'ensemble de données RevUtil, nous comparons des modèles affinés qui évaluent ces dimensions et génèrent des justifications. Les résultats expérimentaux montrent que les modèles affinés concordent avec les humains, comparables, voire supérieurs, à des modèles fermés performants comme GPT-4o. Cependant, les évaluations générées automatiquement obtiennent généralement de moins bons résultats que les évaluateurs humains sur ces quatre dimensions.

Takeaways, Limitations_

Takeaways:
A contribué au développement d'un système automatisé d'évaluation par les pairs en présentant quatre aspects clés (actionnabilité, fondement et spécificité, vérifiabilité et utilité) pour évaluer l'utilité de l'évaluation.
Contribuez à l’avancement de la recherche connexe en fournissant l’ensemble de données RevUtil.
Nous démontrons que des modèles affinés peuvent atteindre des performances de niveau humain.
Limitations:
ÉTant donné que le modèle a été formé à l’aide de données synthétiques, ses performances de généralisation sur des données réelles doivent être vérifiées.
Il existe un manque d’analyse approfondie des raisons pour lesquelles les avis générés par machine sont moins performants que les avis humains.
Il peut y avoir d’autres aspects importants en plus de ces quatre-là.
👍