Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Fleurs-SLU : une référence massivement multilingue pour la compréhension du langage parlé

Created by
  • Haebom

Auteur

Fabian David Schmidt, Ivan Vuli c, Goran Glava\v{s}, David Ifeoluwa Adelani

Contour

Cet article présente Fleurs-SLU, un benchmark SLU multilingue pour la compréhension de la parole (SLU) dans les langues à faibles ressources. Fleurs-SLU contient 692 heures de données vocales pour la classification d'énoncés thématiques en 102 langues et 944 heures de données vocales pour la réponse à des questions à choix multiples par compréhension orale en 92 langues. Nous évaluons en profondeur un modèle de classification vocale de bout en bout, un système en cascade combinant transcription parole-texte et classification basée sur le LLM, et un LLM vocal multimodal sur Fleurs-SLU. Les résultats expérimentaux montrent que, si le système en cascade est plus robuste en SLU multilingue, un encodeur vocal bien entraîné affiche des performances compétitives en classification de la parole thématique. Le LLM vocal en boucle fermée égale ou surpasse les performances du système en cascade. De plus, nous observons une forte corrélation entre une RAP multilingue robuste, une traduction parole-texte efficace et une SLU multilingue robuste, démontrant les avantages mutuels des représentations acoustiques et sémantiques de la parole.

Takeaways, Limitations

Takeaways:
Nous présentons Fleurs-SLU, une nouvelle référence pour la recherche SLU multilingue, incluant les langues à faibles ressources.
Nous démontrons les atouts des systèmes en cascade dans les SLU multilingues et la compétitivité des encodeurs vocaux pré-entraînés et des LLM vocaux en boucle fermée.
Découvrir les interconnexions entre l'ASR multilingue robuste, la traduction efficace de la parole en texte et la SLU multilingue.
Limitations:
Fleurs-SLU se concentre sur des langages et des tâches spécifiques, nécessitant des recherches supplémentaires sur la généralisabilité.
Manque d'analyse détaillée des comparaisons de performances vocales en boucle fermée-LLM.
Une analyse plus complète des performances est nécessaire pour divers langages à faibles ressources.
👍