본 논문은 저자원 언어의 음성 언어 이해(SLU) 과제를 해결하기 위해 다국어 SLU 벤치마크인 Fleurs-SLU를 제시합니다. Fleurs-SLU는 102개 언어의 주제 발화 분류를 위한 692시간의 음성 데이터와 92개 언어의 청취 이해를 통한 객관식 질문 응답을 위한 944시간의 음성 데이터를 포함합니다. 논문에서는 end-to-end 음성 분류 모델, 음성-텍스트 변환과 LLM 기반 분류를 결합한 계단식 시스템, 그리고 다중 모드 음성-LLM을 Fleurs-SLU에서 광범위하게 평가합니다. 실험 결과, 계단식 시스템이 다국어 SLU에서 더 강력하지만, 잘 사전 훈련된 음성 인코더는 주제 음성 분류에서 경쟁력 있는 성능을 보입니다. 폐쇄형 음성-LLM은 계단식 시스템의 성능을 따라잡거나 능가합니다. 또한, 강력한 다국어 ASR, 효과적인 음성-텍스트 번역, 그리고 강력한 다국어 SLU 간의 강한 상관관계를 관찰하여 음향 및 의미 음성 표현 간의 상호 이점을 보여줍니다.