Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Adaptabilidad de los modelos ASR en idiomas de bajos recursos: un estudio comparativo de Whisper y Wav2Vec-BERT en bengalí

Created by
  • Haebom

Autor

Dr. Sazzadul Islam Ridoy, Sumi Akter, Dr. Aminur Rahman

Describir

En este artículo, estudiamos dos modelos de reconocimiento automático de voz (ASR) de vanguardia, Whisper (Small & Large-V2) de OpenAI y Wav2Vec-BERT de Facebook, para evaluar su rendimiento en el reconocimiento de voz en bengalí, un idioma con bajos recursos. Utilizando dos conjuntos de datos públicos, Mozilla Common Voice-17 y OpenSLR, comparamos el rendimiento de los modelos en términos de tasa de error de palabras (WER), tasa de error de caracteres (CER), tiempo de entrenamiento y eficiencia computacional mediante un ajuste fino sistemático y la optimización de hiperparámetros, incluyendo la tasa de aprendizaje, las épocas y la selección de puntos de control del modelo. Como resultado, confirmamos que el modelo Wav2Vec-BERT supera al modelo Whisper en todas las métricas clave de evaluación y requiere menos recursos computacionales.

Takeaways, Limitations

Takeaways: Demostramos experimentalmente que el modelo Wav2Vec-BERT ofrece un rendimiento de reconocimiento de voz más eficiente y preciso que el modelo Whisper en entornos lingüísticos de bajos recursos. Esto proporciona una importante Takeaways para el desarrollo de sistemas robustos de reconocimiento de voz para idiomas de bajos recursos.
Limitations: Este estudio se limita a dos conjuntos de datos específicos y dos modelos ASR, y su generalización a otros lenguajes o modelos con recursos limitados requiere mayor investigación. Además, se carece de un análisis exhaustivo del impacto del tamaño y la calidad de los conjuntos de datos utilizados en el rendimiento del modelo.
👍