Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Problèmes de qualité des données dans les ensembles de données vocales multilingues : la nécessité d'une sensibilisation sociolinguistique et d'une planification linguistique proactive

Created by
  • Haebom

Auteur

Mingfei Lau, Qian Chen, Yeming Fang, Tingting Xu, Tongzhou Chen, Pavel Golik

Contour

Cet article présente les résultats d'un audit qualité de trois jeux de données vocales multilingues : Mozilla Common Voice 17.0, FLEURS et Vox Populi. Ces audits révèlent des problèmes de qualité importants dans certaines langues, susceptibles de fausser les résultats des sous-évaluations et de créer une illusion de réussite. Les problèmes de qualité peuvent être classés en micro et macro, ces derniers étant plus fréquents dans les langues moins institutionnalisées et moins gourmandes en ressources. Une étude de cas sur la langue min du sud de Taïwan (nan_tw) souligne la nécessité d'une planification lexicale (par exemple, règles orthographiques, définition des limites dialectales) et d'un contrôle qualité amélioré lors de la création des jeux de données. Nous fournissons des lignes directrices et des recommandations pour atténuer ces problèmes lors du développement futur des jeux de données, en soulignant l'importance de la sensibilisation sociolinguistique et des principes de planification linguistique. Nous encourageons également la recherche sur la manière dont le processus de production lui-même peut être utilisé comme un outil de planification et d'activation linguistique piloté par la communauté.

Takeaways, Limitations

Takeaways:
Nous démontrons que les problèmes de qualité dans les ensembles de données vocales multilingues peuvent avoir un impact sérieux sur les résultats de l’évaluation des sous-tâches.
Souligne que les problèmes de qualité au niveau macro sont plus graves dans les langues pauvres en ressources.
Souligne l’importance d’une planification préalable du langage et d’une meilleure gestion de la qualité des données.
Suggérant le potentiel du processus de création d’ensembles de données en tant qu’outil de planification et d’activation linguistique piloté par la communauté.
Limitations:
Le nombre d’ensembles de données à analyser est limité à trois.
Les études de cas sont biaisées en faveur d’une langue spécifique (le sud du Taiwanais Min).
Absence de plans concrets de mise en œuvre des lignes directrices et recommandations présentées.
👍