Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Dynaword : du one-shot aux jeux de données développés en continu

Created by
  • Haebom

Auteur

Kenneth Enevoldsen, Kristian N{\o}rgaard Jensen, Jan Kostkan, Balazs Szab o, Arton Kardos, Kirten Vad, Johan Heinsen, Andrea Blasi Nu nez , Gianluca Barmina, Jacob Nielsen, Rasmus Larsen, Peter Vahlstrup, Per M{\o}ldrup Dalum, Desmond Elliott, Lukas Galke, Peter Schneider-Kamp, Kristoffer Nielbo

Contour

Cet article présente l'approche Dynaword et l'approche danoise Dynaword pour relever trois défis majeurs dans le développement et l'utilisation d'ensembles de données à grande échelle dans le domaine du traitement du langage naturel : 1) des licences ambiguës restreignent l'utilisation, le partage et les œuvres dérivées ; 2) des distributions statiques d'ensembles de données entravent les contributions continues de la communauté et la maintenance à long terme ; et 3) des processus d'assurance qualité limités aux équipes de publication. Dynaword est un cadre pour la création d'ensembles de données ouverts à grande échelle, pouvant être continuellement mis à jour grâce à la collaboration communautaire, et la version danoise Dynaword en est une implémentation concrète qui valide cette approche et démontre son potentiel. La version danoise Dynaword contient plus de quatre fois plus de jetons que les ensembles de données existants, est entièrement sous licence ouverte et a bénéficié de diverses contributions de l'industrie et de la recherche. Elle établit également un cadre durable pour les contributions continues de la communauté et l'évolution des ensembles de données, y compris des tests légers pour garantir le format, la qualité et la documentation des données.

Takeaways, Limitations_

Takeaways:
Un cadre pour la création d’ensembles de données ouverts à grande échelle, continuellement mis à jour en fonction des contributions de la communauté, est présenté.
Validation de la faisabilité et de l'utilité de l'approche Dynaword en utilisant Dynaword danois.
Fournir un ensemble de données ouvert qui est considérablement plus grand (plus de quatre fois le nombre de jetons) que les ensembles de données existants.
Construire un système de test et de documentation léger pour la qualité et la durabilité des données.
Limitations:
Des recherches supplémentaires sont nécessaires pour explorer l’évolutivité de l’approche Dynaword et son applicabilité à diverses langues et domaines.
Il est nécessaire de réfléchir davantage à des mécanismes efficaces de gouvernance et d’engagement pour les contributions communautaires.
Il est nécessaire de vérifier si les caractéristiques de Dynaword danois peuvent être appliquées à la construction d’ensembles de données dans d’autres langues et domaines.
👍