Cet article présente les résultats d'un audit qualité de trois jeux de données vocales multilingues : Mozilla Common Voice 17.0, FLEURS et Vox Populi. Ces audits révèlent des problèmes de qualité importants dans certaines langues, susceptibles de fausser les résultats des sous-évaluations et de créer une illusion de réussite. Les problèmes de qualité peuvent être classés en micro et macro, ces derniers étant plus fréquents dans les langues moins institutionnalisées et moins gourmandes en ressources. Une étude de cas sur la langue min du sud de Taïwan (nan_tw) souligne la nécessité d'une planification lexicale (par exemple, règles orthographiques, définition des limites dialectales) et d'un contrôle qualité amélioré lors de la création des jeux de données. Nous fournissons des lignes directrices et des recommandations pour atténuer ces problèmes lors du développement futur des jeux de données, en soulignant l'importance de la sensibilisation sociolinguistique et des principes de planification linguistique. Nous encourageons également la recherche sur la manière dont le processus de production lui-même peut être utilisé comme un outil de planification et d'activation linguistique piloté par la communauté.