Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Modelo de duración adaptativa para la alineación del texto y el habla

Created by
  • Haebom

Autor

Junjie Cao

Describir

Este artículo se centra en la alineación de voz a texto, un elemento crucial en los modelos de texto a voz (TTS) basados ​​en redes neuronales. Los modelos TTS autorregresivos suelen aprender la alineación en línea mediante un mecanismo de atención, mientras que los modelos TTS no autorregresivos de extremo a extremo se basan en duraciones extraídas de fuentes externas. En este artículo, proponemos un nuevo marco de predicción de duración que puede proporcionar distribuciones prometedoras de duración a nivel de fonema a partir de un texto dado. Los resultados experimentales demuestran que el modelo de duración propuesto es más preciso y adaptable a las condiciones que los modelos de referencia existentes. En concreto, mejora significativamente la precisión de la alineación a nivel de fonema y aumenta la robustez de los modelos TTS de disparo cero ante desajustes entre el mensaje y el audio de entrada.

Takeaways, Limitations

Takeaways:
Un nuevo marco de predicción de duración proporciona una predicción de duración a nivel de fonema y una adaptabilidad de condiciones más precisas que los modelos existentes.
Contribuye a mejorar la precisión de la alineación a nivel de fonemas y a mejorar la robustez de los modelos TTS de disparo cero.
Puede contribuir a mejorar el rendimiento de los modelos TTS de extremo a extremo no autorregresivos.
Limitations:
Es necesaria una evaluación más profunda del desempeño de generalización del modelo propuesto.
No se presentaron resultados experimentales para diversos datos del lenguaje y del habla.
Se necesita un análisis comparativo más completo con otros modelos de predicción de duración.
👍