Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo. La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro. Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.
Conversión de voz y ritmo no supervisados para mejorar la ASR en el habla disártrica
Created by
Haebom
Autor
Karl El Hajal, Enno Hermann, Sevada Hovsepyan, Mathew Magimai. -Dormir
Describir
Este artículo presenta un método para transformar el habla disártrica en habla sonora para resolver el problema de los sistemas de reconocimiento automático del habla (ASR) que tienen dificultades con los trastornos del habla con velocidades de habla lentas y una gran variabilidad entre hablantes. Extendemos el marco de transformación de Ritmo y Voz (RnV) introduciendo un método de modelado de ritmo basado en sílabas adecuado para los trastornos del habla. Entrenamos un modelo LF-MMI con el habla transformada y afinamos el modelo Whisper para evaluar la mejora del rendimiento de ASR. Los resultados experimentales utilizando el corpus Torgo muestran que LF-MMI logra una alta reducción de la tasa de error de palabras, especialmente para el habla disártrica severa, mientras que el afinado con los datos transformados para Whisper tiene un efecto mínimo en la mejora del rendimiento. Estos resultados demuestran el potencial de la transformación de ritmo y voz no supervisada para ASR a partir del habla disártrica. El código se puede encontrar en https://github.com/idiap/RnV .
Se ha demostrado que la ampliación del marco RnV con modelos de ritmo basados en sílabas es eficaz para mejorar el rendimiento de ASR en expresiones con problemas del habla.
◦
En particular, el uso del modelo LF-MMI resultó en una reducción significativa en las tasas de errores de palabras en trastornos graves del habla.
◦
Presentar la viabilidad de aplicar técnicas de conversión de ritmo y voz basadas en aprendizaje no supervisado a ASR.
•
Limitations:
◦
Para el modelo Whisper, el ajuste utilizando datos transformados tuvo un efecto mínimo en la mejora del rendimiento.
◦
Dado que el experimento se realizó utilizando solo un corpus de Torgo, es necesario verificar el rendimiento de generalización para otros corpus.
◦
Falta de análisis del desempeño para diferentes tipos de trastornos del habla.