Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

RLMR : Apprentissage par renforcement avec récompenses variées pour l'écriture créative

Created by
  • Haebom

Auteur

Jianxing Liao, Tian Zhang, Xiao Feng, Yusong Zhang, Rui Yang, Haorui Wang, Bosi Wen, Ziying Wang, Runzhi Shi

Contour

Cet article propose l'apprentissage par renforcement avec récompenses mixtes (RLMR), une nouvelle méthode d'apprentissage par renforcement pour l'écriture créative. Cette méthode équilibre la qualité subjective de l'écriture (par exemple, la littérarité, l'expression émotionnelle) et le respect de contraintes objectives (par exemple, les exigences formelles, la limite du nombre de mots) à l'aide de modèles linguistiques à grande échelle. RLMR utilise un système de récompenses dynamiquement mixtes composé d'un modèle de récompense d'écriture évaluant la qualité subjective de l'écriture et d'un modèle de vérification des contraintes évaluant le respect des contraintes objectives. Plus précisément, il ajuste dynamiquement les pondérations des récompenses de conformité aux contraintes en fonction de la qualité d'écriture d'un groupe échantillonné, pénalisant ainsi les échantillons qui ne respectent pas les contraintes pendant l'apprentissage. Les expériences sont menées à l'aide d'évaluations automatisées et manuelles de différentes familles de modèles avec des paramètres allant de 8B à 72B, ainsi que du benchmark d'écriture réel WriteEval, démontrant une amélioration des performances en termes de conformité aux commandes et de qualité d'écriture.

Takeaways, Limitations_

Takeaways:
Il s’agit de la première étude à combiner les préférences subjectives et la validation objective dans la formation à l’apprentissage par renforcement en ligne.
Nous proposons des solutions efficaces pour optimiser l’écriture créative multidimensionnelle.
Amélioration des performances en termes de conformité aux commandes et de qualité d'écriture (IFEval 83,36 % → 86,65 %, taux de réussite de l'évaluation manuelle par paires des experts WriteEval 72,75 %).
Limitations:
Des recherches supplémentaires sont nécessaires pour évaluer les performances de généralisation de la méthode proposée.
Il est nécessaire d’élargir davantage la portée des critères d’évaluation, y compris WriteEval.
Une validation supplémentaire de son applicabilité à différents types de tâches d’écriture créative est nécessaire.
👍