Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Fleurs-SLU: Un referente multilingüe masivo para la comprensión del lenguaje hablado

Created by
  • Haebom

Autor

Fabián David Schmidt, Ivan Vuli c, Goran Glava\v{s}, David Ifeoluwa Adelani

Describir

Este artículo presenta Fleurs-SLU, un modelo de referencia de SLU multilingüe para la comprensión del habla (SLU) en idiomas con recursos limitados. Fleurs-SLU contiene 692 horas de datos de habla para la clasificación de enunciados temáticos en 102 idiomas y 944 horas de datos de habla para la respuesta a preguntas de opción múltiple mediante comprensión auditiva en 92 idiomas. Evaluamos exhaustivamente un modelo de clasificación del habla de extremo a extremo, un sistema en cascada que combina la transcripción de voz a texto y la clasificación basada en LLM, y un modelo de LLM de voz multimodal en Fleurs-SLU. Los resultados experimentales muestran que, si bien el sistema en cascada es más robusto en SLU multilingüe, un codificador de voz bien entrenado demuestra un rendimiento competitivo en la clasificación del habla temática. El modelo de LLM de voz de bucle cerrado iguala o supera el rendimiento del sistema en cascada. Además, observamos una fuerte correlación entre un ASR multilingüe robusto, una traducción de voz a texto efectiva y una SLU multilingüe robusta, lo que demuestra los beneficios mutuos de las representaciones acústicas y semánticas del habla.

Takeaways, Limitations

Takeaways:
Presentamos Fleurs-SLU, un nuevo referente para la investigación SLU multilingüe, incluyendo idiomas con bajos recursos.
Demostramos las fortalezas de los sistemas en cascada en SLU multilingües y la competitividad de los codificadores de voz preentrenados y los LLM de voz de circuito cerrado.
Descubrir las interconexiones entre un ASR multilingüe robusto, una traducción de voz a texto efectiva y una SLU multilingüe.
Limitations:
Fleurs-SLU se centra en lenguajes y tareas específicos, lo que requiere más investigación sobre generalización.
Falta de análisis detallado de las comparaciones de rendimiento de voz-LLM de circuito cerrado.
Se necesita un análisis de rendimiento más exhaustivo para varios lenguajes con bajos recursos.
👍