Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

MERaLiON-SpeechEncoder: Hacia un modelo de base del habla para Singapur y el resto del mundo

Created by
  • Haebom

Autor

Muhammad Huzaifah, Geyu Lin, Tianchi Liu, Hardik B. Sailor, Kye Min Tan, Tarun K. Vangani, Qiongqiong Wang, Jeremy H.M. Wong, Jinyang Wu, Nancy F. Chen, Ai Ti Aw

Describir

MERaLiON-SpeechEncoder es un modelo fundamental desarrollado como parte del Programa Nacional de Modelos Lingüísticos Multimodales a Gran Escala de Singapur, diseñado para diversas aplicaciones de voz de bajo nivel. Se basa principalmente en el inglés hablado en Singapur, con la posibilidad de ampliar el conjunto de datos para incluir otros idiomas. Se preentrenó desde cero con 200.000 horas de datos de voz sin etiquetar mediante un método de aprendizaje autosupervisado basado en el modelado lingüístico enmascarado. Se incluyen detalles del procedimiento de entrenamiento y experimentos de ajuste de hiperparámetros, que demuestran mejoras improvisadas en los parámetros de referencia del habla específicos de Singapur para el reconocimiento de voz, a la vez que se mantiene competitivo frente a los codificadores de voz de vanguardia en otras 10 tareas de voz. Nos comprometemos a apoyar la investigación en Singapur y en otros países poniendo el modelo a disposición del público.

Takeaways, Limitations

Takeaways:
Proporcionar un modelo fundamental adaptado a las necesidades de procesamiento del habla de Singapur y el Sudeste Asiático.
Se presenta un método eficaz de preentrenamiento basado en el aprendizaje autosupervisado que utiliza 200.000 horas de datos de voz no etiquetados a gran escala.
Se mejoró el rendimiento del reconocimiento de voz, especialmente para el reconocimiento de voz en inglés de Singapur.
Lograr un rendimiento de vanguardia en una amplia gama de tareas de voz.
Apoyar la expansión de la investigación mediante la divulgación de modelos.
Limitations:
Actualmente se centra principalmente en el inglés de Singapur, y el soporte para otros idiomas aún se está ampliando.
La necesidad de ampliar los conjuntos de datos para varios idiomas.
👍