Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Créez votre ensemble de données : Génération d'ensembles de données synthétiques spécifiques à une tâche grâce à la récupération et à l'augmentation de corpus

Created by
  • Haebom

Auteur

Ingo Ziegler, Abdullatif K oksal, Desmond Elliott, Hinrich Sch utze

Contour

Afin de relever les défis liés à la création d'ensembles de données de haute qualité pour des tâches spécialisées, cet article propose la méthode CRAFT (Corpus Retrieval and Augmentation for Fine-Tuning), qui génère des ensembles de données synthétiques à partir d'un petit nombre de clichés générés par les utilisateurs. CRAFT utilise un corpus d'exploration web public à grande échelle et une recherche de documents basée sur la similarité pour trouver les documents pertinents. Il s'appuie également sur un modèle de langage géant (LLM) à orientation directive pour enrichir les documents récupérés avec des échantillons de tâches définis par l'utilisateur. Des expériences sur quatre tâches différentes – biologie, médecine, questions-réponses de sens commun (QA) et résumé – démontrent que CRAFT génère efficacement de grands ensembles de données d'entraînement spécifiques à chaque tâche, surpassant ou égalant un LLM standard pour la tâche QA et obtenant une amélioration de préférence de 46 points par rapport aux modèles entraînés sur des données existantes gérées par l'homme pour la tâche de résumé. De plus, il surpasse d’autres méthodes de génération de jeux de données synthétiques, telles que Self-Instruct et Evol-Instruct, et maintient des performances robustes même lorsque la qualité des premières prises de vue varie.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant de générer efficacement des ensembles de données de formation à grande échelle et de haute qualité en utilisant uniquement une petite quantité de données.
Il montre une applicabilité dans divers domaines (biologie, médecine, assurance qualité, synthèse, etc.).
Assure des performances et une robustesse supérieures par rapport aux méthodes existantes.
Créez des ensembles de données pour des tâches spécifiques, même sans connaissances spécialisées.
Limitations:
Cela peut dépendre des performances de LLM. Les limitations de performances de LLM peuvent également affecter celles de CRAFT.
Le contrôle de la qualité des prises de vue initiales est important, car la qualité des premières prises de vue peut affecter le résultat.
La qualité et les biais des données d'exploration Web peuvent affecter les résultats. Il est donc nécessaire de remédier aux problèmes de fiabilité et de biais des données.
Une optimisation pour des tâches spécifiques peut être nécessaire. Les performances de généralisation doivent être améliorées pour diverses tâches.
👍