Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Conversión de voz de disparo cero mediante conjunto de timbres con reconocimiento de contenido y coincidencia de flujo condicional

Created by
  • Haebom

Autor

Yu Pan, Yuguang Yang, Jixun Yao, Lei Ma, Jianjun Zhao

Describir

Este artículo propone el marco del Modelo de Eficiencia de Transformación Computacional (CTEFM-VC) para abordar los desafíos de asegurar la similitud y naturalidad de los hablantes en la conversión de voz (VC) de disparo cero. CTEF-VC descompone el habla en contenido y timbre y reconstruye el espectrograma de Mel del habla fuente mediante un modelo de coincidencia de flujo condicional. Específicamente, introduce el modelado de conjuntos de timbres sensible al contexto y una función de pérdida de timbre basada en la similitud estructural para mejorar la naturalidad y el rendimiento del modelado de timbre del habla generada. Un módulo de atención cruzada que integra adaptativamente diversas incrustaciones de verificación de hablantes aprovecha eficazmente el contenido fuente y los elementos de timbre de destino. Los resultados experimentales muestran que CTEFM-VC supera significativamente a los sistemas de VC de disparo cero de última generación existentes, logrando un rendimiento de vanguardia en similitud, naturalidad e inteligibilidad de los hablantes.

Takeaways, Limitations

Takeaways:
Presentamos un nuevo marco, CTEFM-VC, que mejora significativamente la similitud y la naturalidad de los hablantes en la conversión de voz de disparo cero.
Mejora del rendimiento mediante el modelado de conjuntos de timbres conscientes del contexto y una función de pérdida de timbre basada en la similitud estructural.
Uso eficaz de diversas incrustaciones de verificación de hablantes.
Rendimiento superior en comparación con los modelos de vanguardia existentes.
Limitations:
El artículo carece de referencias específicas a Limitations o direcciones de investigación futuras.
Se requiere una descripción detallada de la configuración experimental y del conjunto de datos.
Puede haber un sesgo hacia ciertos idiomas o datos de voz.
👍