Este artículo presenta Fleurs-SLU, un modelo de referencia de SLU multilingüe para la comprensión del habla (SLU) en idiomas con recursos limitados. Fleurs-SLU contiene 692 horas de datos de habla para la clasificación de enunciados temáticos en 102 idiomas y 944 horas de datos de habla para la respuesta a preguntas de opción múltiple mediante comprensión auditiva en 92 idiomas. Evaluamos exhaustivamente un modelo de clasificación del habla de extremo a extremo, un sistema en cascada que combina la transcripción de voz a texto y la clasificación basada en LLM, y un modelo de LLM de voz multimodal en Fleurs-SLU. Los resultados experimentales muestran que, si bien el sistema en cascada es más robusto en SLU multilingüe, un codificador de voz bien entrenado demuestra un rendimiento competitivo en la clasificación del habla temática. El modelo de LLM de voz de bucle cerrado iguala o supera el rendimiento del sistema en cascada. Además, observamos una fuerte correlación entre un ASR multilingüe robusto, una traducción de voz a texto efectiva y una SLU multilingüe robusta, lo que demuestra los beneficios mutuos de las representaciones acústicas y semánticas del habla.