Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Source2Synth : génération et conservation de données synthétiques basées sur des sources de données réelles

Created by
  • Haebom

Auteur

Alisia Lupidi, Carlos Gemmell, Nicola Cancedda, Jane Dwivedi-Yu, Jason Weston, Jakob Foerster, Roberta Raileanu, Maria Lomeli

Contour

Cet article présente Source2Synth, une nouvelle approche qui exploite la génération de données synthétiques pour améliorer les performances des modèles linguistiques à grande échelle (LLM) sans annotation manuelle coûteuse. Source2Synth génère des données synthétiques à partir de sources de données réelles et améliore la qualité des données en intégrant une étape d'inférence intermédiaire. Il améliore la qualité des jeux de données en supprimant les artefacts de faible qualité basés sur la possibilité de réponse. Nous démontrons des gains de performance en appliquant cette approche à deux tâches utilisant divers types de données : la réponse aux questions en plusieurs étapes (MHQA), qui évalue les capacités de raisonnement complexe à l'aide de documents, et la réponse aux questions sous forme de tableaux (TQA), qui évalue l'utilisabilité des outils à l'aide de tableaux. Nous obtenons des gains de performance de 25,51 % sur la tâche TQA WikiSQL et de 22,57 % sur la tâche MHQA HotpotQA, par rapport aux modèles de référence existants.

Takeaways, Limitations

Takeaways:
Nous présentons une nouvelle méthode permettant d’améliorer efficacement les performances du LLM en générant des données synthétiques basées sur des sources de données réelles.
Améliorez la qualité des données en incluant des étapes d’inférence intermédiaires et en supprimant les artefacts de faible qualité.
Démontre l'applicabilité à divers types de données et de tâches (MHQA, TQA).
Améliorations significatives des performances obtenues sur WikiSQL et HotpotQA.
Limitations:
Des expérimentations et analyses supplémentaires sont nécessaires sur l’évolutivité de Source2Synth.
Identifier les limites de la capacité de généralisation pour divers types de données et tâches et les améliorer.
Des recherches supplémentaires sont nécessaires pour améliorer l’objectivité et l’optimisation des critères d’élimination des produits de mauvaise qualité.
Une analyse est nécessaire pour déterminer l’impact du biais dans les sources de données utilisées sur les résultats.
👍