Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

De l'IA-Slop au IA-Polish ? Aligner les modèles linguistiques grâce aux récompenses d'écriture basées sur la correction et au calcul du temps d'examen.

Created by
  • Haebom

Auteur

Tuhin Chakrabarty, Philippe Laban, Chien-Sheng Wu

Contour

Cet article se concentre sur l'évaluation et l'amélioration de la qualité des textes générés par l'IA. Avec l'augmentation rapide du volume de textes générés par l'IA, évaluer et améliorer la « qualité » des textes au-delà de la simple exactitude et de la cohérence grammaticales est devenu de plus en plus important. Nous présentons le Writing Quality Benchmark (WQ), un ensemble de 4 729 jugements sur la qualité de l'écriture, intégrés à partir de cinq bases de données existantes. Plusieurs modèles de référence, dont des LLM de pointe, démontrent qu'ils ne surpassent pas significativement les benchmarks aléatoires sur le WQ. Pour y remédier, nous formons des modèles de récompense pour la qualité de l'écriture (WQRM) de différentes tailles pour évaluer la qualité de l'écriture, obtenant ainsi de solides performances de généralisation et une précision de 74 % sur le WQ sur quatre ensembles de tests hors distribution. De plus, nous démontrons que le WQRM peut être utilisé pour générer et classer les révisions candidates, permettant ainsi de sélectionner des résultats de meilleure qualité que les versions initiales. Lors d'évaluations humaines menées par neuf rédacteurs professionnels, la méthode de sélection basée sur le WQRM a généré des échantillons d'écriture préférés par les experts dans 66 % des cas, et dans 72,2 % des cas lorsque l'écart de récompense était supérieur à un point. Les chercheurs entendent contribuer au développement de systèmes d'écriture basés sur l'IA en rendant publics l'ensemble de données et le modèle.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau modèle de référence (WQ) et d’évaluation (WQRM) pour l’évaluation qualitative du texte généré par l’IA.
WQRM démontre des performances d’évaluation de la qualité de l’écriture supérieures par rapport aux modèles existants.
Suggérer la possibilité d'améliorer la qualité du texte généré par l'IA grâce à la génération et à la sélection de plusieurs candidats à l'aide de WQRM.
Promouvoir la collaboration et le développement entre le monde universitaire et l’industrie grâce à la divulgation d’ensembles de données et de modèles.
Limitations:
Le benchmark WQ est toujours basé sur une gamme limitée d’ensembles de données.
Les performances du WQRM sont principalement basées sur des évaluations quantitatives et peuvent ne pas refléter pleinement les aspects qualitatifs tels que les choix subtils de vocabulaire ou de style.
L’échelle de l’évaluation humaine est relativement petite, ce qui nécessite des recherches supplémentaires sur la généralisabilité.
Il y a des limites à la parfaite réflexion sur les jugements subjectifs concernant la qualité de l’écriture.
👍