Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

USM-VC: Mitigación de la pérdida de timbre con el mapeo semántico universal de bloques residuales para la conversión de voz

Created by
  • Haebom

Autor

Na Li, Chuke Wang, Yu Gu, Zhifeng Li

Describir

Este artículo propone un método novedoso para abordar el problema de la fuga de timbre en la conversión de voz (VC), donde la información de timbre del hablante fuente se integra en la representación del contenido, reduciendo así la similitud con el hablante objetivo. Para ello, introducimos el bloque residual de Coincidencia Semántica Universal (USM) en el extractor de contenido. El bloque residual USM consta de dos ramas ponderadas. La primera rama es el módulo de Reexpresión de Características de Contenido (CFR), basado en un diccionario semántico universal calculado estadísticamente utilizando el habla de varios hablantes, que proporciona la representación del contenido sin timbre. La segunda rama es una conexión de salto a la capa de contenido original, que proporciona información complementaria de grano fino. El módulo CFR representa cada marco de contenido como una combinación lineal ponderada de entradas del diccionario para obtener la representación del contenido sin timbre. Mediante experimentos exhaustivos en varios marcos de VC, demostramos que el método propuesto mitiga eficazmente la fuga de timbre y mejora significativamente la similitud con el hablante objetivo.

Takeaways, Limitations

Takeaways:
Se presenta un novedoso método de conversión de voz para resolver eficazmente el problema de fuga de tono.
Generación de representaciones de contenido independientes del hablante utilizando un diccionario semántico universal.
Verificación experimental de mejoras de rendimiento en varios marcos de VC.
Mejora enormemente la similitud con el hablante de destino.
Limitations:
Dependencia de la variedad y tamaño de los datos de voz utilizados en la creación de un diccionario semántico universal.
No se puede generalizar a idiomas o estilos de habla específicos.
Se necesita más investigación sobre la complejidad computacional y la capacidad de procesamiento en tiempo real del módulo CFR.
👍