Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

QR-VC: Aprovechamiento de los residuos de cuantificación para el desenredo lineal en la conversión de voz de disparo cero

Created by
  • Haebom

Autor

Youngjun Sim, Jinsung Yoon, Wooyeol Jeong, Young-Joo Suh

Describir

Este artículo presenta una técnica de conversión de voz de disparo cero que convierte los componentes del hablante del habla de entrada en componentes del hablante objetivo sin entrenamiento adicional, utilizando únicamente un enunciado de referencia. Investigaciones previas se centraron en la extracción de representaciones de contenido de alta calidad y la eliminación de información del hablante mediante funciones de aprendizaje autosupervisado y cuantificación de K-medias. Sin embargo, este proceso a menudo resulta en la pérdida de información fonética y prosódica de grano fino, lo que degrada la inteligibilidad y la retención prosódica. Este artículo presenta un método novedoso que separa eficazmente la información del hablante de la información fonética y prosódica, considerando las características temporales mediante residuos de cuantificación. Utilizando únicamente la cuantificación de K-medias y la proyección lineal, logramos una separación simple pero efectiva sin estructuras complejas ni aprendizaje supervisado explícito, y permitimos una conversión de voz de alta calidad utilizando únicamente la pérdida de reconstrucción. Los resultados experimentales demuestran que el modelo propuesto supera a los métodos existentes tanto en métricas subjetivas como objetivas, mejorando la inteligibilidad, la similitud entre hablantes y la retención prosódica.

Takeaways, Limitations

Takeaways:
Se presenta un nuevo método para mejorar el rendimiento de la conversión de voz mediante el uso de residuos de cuantificación de K-medias.
Conversión de voz de alta calidad sin estructuras complejas ni aprendizaje supervisado explícito.
Se logró un rendimiento mejorado en claridad, similitud de hablantes y retención de prosodia.
Demostrando la eficacia del módulo Desenredante Lineal.
Limitations:
Se necesita más investigación sobre el rendimiento de generalización del método propuesto.
Es necesaria una evaluación del desempeño en varios conjuntos de datos de lenguaje y habla.
Existe la posibilidad de degradación del rendimiento debido a las limitaciones de la cuantificación de K-medias.
👍