Daily Arxiv

Esta página recopila y organiza artículos sobre inteligencia artificial publicados en todo el mundo.
La información aquí presentada se resume utilizando Google Gemini y el sitio se gestiona sin fines de lucro.
Los derechos de autor de los artículos pertenecen a sus autores y a las instituciones correspondientes; al compartir el contenido, basta con citar la fuente.

Discriminador de características proyectadas por vocoder

Created by
  • Haebom

Autor

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

Describir

Este artículo destaca las limitaciones de los enfoques existentes que utilizan características acústicas, como los espectrogramas Mel, para generar señales de voz de alta calidad en la síntesis de voz (TTS) y la conversión de voz (VC). Los enfoques existentes utilizan un vocoder para convertir las características acústicas en señales de voz y aplicar entrenamiento adversarial en el dominio temporal, pero el sobremuestreo de las señales de voz supone una sobrecarga significativa de tiempo y memoria. Para solucionar esto, proponemos un Discriminador de Características de Proyección de Vocoder (VPFD) que utiliza las características del vocoder. Mediante un extractor de características de vocoder fijo y preentrenado y un único paso de sobremuestreo, demostramos que el VPFD ​​logra un rendimiento de VC comparable al del discriminador de voz, a la vez que reduce el tiempo de entrenamiento y el consumo de memoria en 9,6 y 11,4 veces, respectivamente, mediante experimentos de destilación de VC basados ​​en difusión.

Takeaways, Limitations

Takeaways:
Demostramos que el entrenamiento adversarial utilizando funciones de vocoder puede reducir significativamente el tiempo de entrenamiento y el consumo de memoria de la síntesis de voz y la conversión de voz.
Presentamos la posibilidad de construir modelos eficientes de generación de voz aprovechando vocoders previamente entrenados.
Verificación experimental de la eficacia de un discriminador de características de proyección de vocoder (VPFD) que exhibe un rendimiento similar al de un discriminador de sonido.
Limitations:
El rendimiento del método propuesto puede estar limitado a ciertas configuraciones de destilación de VC basadas en difusión.
Se necesita más investigación sobre el rendimiento de generalización a otros modelos o conjuntos de datos de síntesis de voz y conversión de voz.
Puede depender del rendimiento del vocoder entrenado previamente.
👍