Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Revelando el papel de los canales de audio en la degradación del rendimiento de ASR

Created by
  • Haebom

Autor

Kuan-Tang Huang, Li-Wei Chen, Hung-Shin Lee, Berlin Chen, Hsin-Min Wang

Describir

Este artículo aborda la cuestión de que el rendimiento de los modelos de reconocimiento automático de voz (ASR) preentrenados puede verse significativamente reducido al utilizarse con audio de entrada procedente de diferentes canales de grabación. Si bien investigaciones previas suelen atribuir este fenómeno a discrepancias entre los corpus de entrenamiento y de prueba, este artículo argumenta que las variaciones en las características del habla debidas a los diferentes canales de grabación pueden reducir significativamente el rendimiento del ASR. Para abordar esta limitación, se propone una técnica de normalización diseñada para mitigar los efectos de las variaciones de canal mediante la alineación de las representaciones internas de las características del modelo ASR con las representaciones derivadas de un canal de referencia limpio. El método propuesto mejora significativamente el rendimiento del ASR en canales e idiomas no vistos previamente, demostrando su capacidad de generalización a través de las diferencias de canal e idioma.

Takeaways, Limitations

Takeaways:
Revelamos que las variaciones en las características de la voz debido a los diferentes canales de grabación son la principal causa de la degradación del rendimiento de ASR.
Se presenta una nueva técnica de normalización para mitigar los efectos de las variaciones del canal.
Demostramos experimentalmente que la técnica propuesta mejora el rendimiento de ASR en varios canales e idiomas.
Un nuevo enfoque para resolver problemas de desajuste de canales y de idioma.
Limitations:
Falta de evaluación del costo computacional y del potencial de procesamiento en tiempo real de la técnica de normalización propuesta.
Se necesita más investigación sobre el rendimiento de generalización en diferentes tipos de ruido y entornos de grabación.
La dificultad de asegurar un canal de referencia limpio y la necesidad de considerar restricciones prácticas.
👍