Cet article présente Fleurs-SLU, un benchmark SLU multilingue pour la compréhension de la parole (SLU) dans les langues à faibles ressources. Fleurs-SLU contient 692 heures de données vocales pour la classification d'énoncés thématiques en 102 langues et 944 heures de données vocales pour la réponse à des questions à choix multiples par compréhension orale en 92 langues. Nous évaluons en profondeur un modèle de classification vocale de bout en bout, un système en cascade combinant transcription parole-texte et classification basée sur le LLM, et un LLM vocal multimodal sur Fleurs-SLU. Les résultats expérimentaux montrent que, si le système en cascade est plus robuste en SLU multilingue, un encodeur vocal bien entraîné affiche des performances compétitives en classification de la parole thématique. Le LLM vocal en boucle fermée égale ou surpasse les performances du système en cascade. De plus, nous observons une forte corrélation entre une RAP multilingue robuste, une traduction parole-texte efficace et une SLU multilingue robuste, démontrant les avantages mutuels des représentations acoustiques et sémantiques de la parole.