Bài báo này trình bày Fleurs-SLU, một chuẩn SLU đa ngôn ngữ cho việc hiểu lời nói (SLU) trong các ngôn ngữ có ít tài nguyên. Fleurs-SLU chứa 692 giờ dữ liệu lời nói để phân loại phát ngôn theo chủ đề trong 102 ngôn ngữ và 944 giờ dữ liệu lời nói để trả lời câu hỏi trắc nghiệm thông qua hiểu nghe trong 92 ngôn ngữ. Chúng tôi đánh giá sâu rộng một mô hình phân loại lời nói đầu cuối, một hệ thống nối tiếp kết hợp phiên âm lời nói thành văn bản và phân loại dựa trên LLM, và một LLM lời nói đa phương thức trên Fleurs-SLU. Kết quả thử nghiệm cho thấy rằng trong khi hệ thống nối tiếp mạnh mẽ hơn trong SLU đa ngôn ngữ, một bộ mã hóa lời nói được đào tạo tốt thể hiện hiệu suất cạnh tranh trong phân loại lời nói theo chủ đề. LLM lời nói vòng kín ngang bằng hoặc vượt trội hơn hiệu suất của hệ thống nối tiếp. Hơn nữa, chúng tôi quan sát thấy mối tương quan mạnh mẽ giữa ASR đa ngôn ngữ mạnh mẽ, dịch lời nói thành văn bản hiệu quả và SLU đa ngôn ngữ mạnh mẽ, chứng minh lợi ích chung của biểu diễn lời nói âm học và ngữ nghĩa.