Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Un peu de données humaines peut faire beaucoup de chemin

Created by
  • Haebom

Auteur

Dhananjay Ashok, Jonathan May

Contour

Cet article explore l'utilisation de la génération de données synthétiques pour réduire le coût de l'annotation humaine dans les systèmes de traitement du langage naturel (TALN). Nous analysons l'efficacité du remplacement progressif des données générées par l'homme par des données synthétiques pour les tâches de vérification des faits (VF) et de réponse aux questions (QA) à l'aide de huit jeux de données différents. Nos expériences révèlent que le remplacement de jusqu'à 90 % des données d'entraînement par des données synthétiques entraîne une dégradation minimale des performances, tandis que le remplacement des 10 % restants entraîne une dégradation significative des performances. Nous démontrons que les modèles entraînés uniquement sur des données synthétiques peuvent améliorer leurs performances avec seulement 125 points de données générés par l'homme, tandis que des quantités nettement plus importantes de données synthétiques sont nécessaires pour obtenir les gains de performance associés à 200 points de données supplémentaires générés par l'homme. Ces résultats suggèrent que même si l'annotation humaine à grande échelle n'est pas réalisable, la génération humaine d'une partie de l'ensemble de données peut s'avérer précieuse.

Takeaways, Limitations

Takeaways:
Les données synthétiques démontrent qu’elles peuvent constituer une alternative rentable à l’annotation humaine.
Le remplacement de la plupart des données d’entraînement par des données synthétiques peut ne pas entraîner de dégradation significative des performances.
Une petite quantité de données annotées par l’homme peut améliorer considérablement les performances des données synthétiques.
Vous pouvez comparer le coût de l’annotation humaine et de la génération de données synthétiques pour déterminer la composition optimale des données.
Limitations:
Les résultats peuvent être limités à des tâches spécifiques (FV, QA) et à des ensembles de données.
La généralisabilité à d’autres tâches ou ensembles de données PNL peut être limitée.
ÉTant donné que la qualité et la diversité des données synthétiques ont un impact significatif sur les performances, des recherches supplémentaires sont nécessaires sur les méthodes de génération de données synthétiques.
Les comparaisons de coûts sont basées sur des hypothèses concernant des situations spécifiques, les généralisations doivent donc être faites avec prudence.
👍