Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

REMOR : Génération automatisée d'évaluations par les pairs avec raisonnement LLM et apprentissage par renforcement multi-objectifs

Created by
  • Haebom

Auteur

Pawin Taechoyotin, Daniel Acuna

Contour

Dans cet article, nous évaluons dans quelle mesure un LLM d'inférence entraîné par l'apprentissage par renforcement multi-objectifs (REMOR) surmonte les limites de l'évaluation par les pairs (éloges superficiels et excessifs). À l'aide d'une fonction de récompense multidimensionnelle adaptée à l'évaluation humaine (autocritique de l'évaluation, nouveauté et pertinence de l'évaluation par rapport au manuscrit), nous affinons le modèle DeepSeek-R1-Distill-Qwen-7B sur PeerRT (un jeu de données d'évaluation de conférences par IA de haute qualité, riche en processus d'inférence) et entraînons deux modèles, REMOR-H (récompense l'alignement humain) et REMOR-U (récompense uniforme), en appliquant la méthode d'optimisation des politiques relatives de groupe (GRPO). Il est intéressant de noter que la récompense pour l'alignement humain pénalise les aspects généralement associés aux bonnes évaluations, ce qui permet à REMOR-U de générer des commentaires qualitativement plus substantiels. Ainsi, REMOR-U et REMOR-H obtiennent des récompenses plus de deux fois supérieures à celles des évaluateurs humains, des systèmes d'IA de pointe sans inférence et des modèles de référence LLM commerciaux courants. Nous constatons que les meilleures évaluations par IA et par des évaluateurs humains sont qualitativement similaires, mais REMOR évite la longue traîne des évaluations humaines de faible qualité. L'inférence est essentielle à ces améliorations, et nous contribuons à l'avancement de ce domaine en publiant la fonction de récompense pour l'évaluation par les pairs axée sur l'humain (HPRR), le jeu de données PeerRT et le modèle REMOR.

Takeaways, Limitations

Takeaways:
Suggérer la possibilité de développer un système d’IA qui surmonte les limites de l’évaluation par les pairs humains grâce à l’apprentissage par renforcement multi-objectifs.
Vérifier la faisabilité de générer des évaluations par les pairs de haute qualité et de niveau humain.
Propose une solution possible au problème des évaluations humaines de mauvaise qualité.
Faciliter la recherche de suivi en publiant la fonction HPRR, l'ensemble de données PeerRT et le modèle REMOR.
Nous démontrons que l’inférence joue un rôle essentiel dans l’amélioration des performances des systèmes d’évaluation par les pairs basés sur l’IA.
Limitations:
Une validation supplémentaire de l’échelle et de la généralisabilité de l’ensemble de données PeerRT est nécessaire.
Il est possible que les performances du modèle REMOR soient biaisées en faveur d’un ensemble de données spécifique.
La subjectivité et les biais des évaluations humaines doivent être pris en compte.
Des recherches supplémentaires sont nécessaires sur le maintien des performances et la stabilité du modèle à long terme.
👍