Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Discriminateur de caractéristiques projetées par vocodeur

Created by
  • Haebom

Auteur

Takuhiro Kaneko, Hirokazu Kameoka, Kou Tanaka, Yuto Kondo

Contour

Cet article met en évidence les limites des approches existantes qui utilisent des caractéristiques acoustiques, telles que les spectrogrammes Mel, pour générer des signaux vocaux de haute qualité en synthèse vocale (TTS) et en conversion vocale (VC). Les approches existantes utilisent un vocodeur pour convertir les caractéristiques acoustiques en signaux vocaux et appliquer un apprentissage contradictoire dans le domaine temporel, mais le suréchantillonnage des signaux vocaux entraîne une surcharge de temps et de mémoire importante. Pour résoudre ce problème, nous proposons un discriminateur de caractéristiques de projection de vocodeur (VPFD) qui utilise les caractéristiques du vocodeur. À l'aide d'un extracteur de caractéristiques de vocodeur fixe pré-entraîné et d'une seule étape de suréchantillonnage, nous démontrons que le VPFD ​​atteint des performances VC comparables à celles du discriminateur vocal tout en réduisant le temps d'apprentissage et la consommation de mémoire de respectivement 9,6x et 11,4x, grâce à des expériences de distillation VC par diffusion.

Takeaways, Limitations

Takeaways:
Nous démontrons que l’entraînement contradictoire utilisant les fonctionnalités du vocodeur peut réduire considérablement le temps d’entraînement et la consommation de mémoire de la synthèse vocale et de la conversion vocale.
Nous présentons la possibilité de construire des modèles de génération de parole efficaces en exploitant des vocodeurs pré-entraînés.
Vérification expérimentale de l'efficacité d'un discriminateur de caractéristiques de projection de vocodeur (VPFD) qui présente des performances similaires à celles d'un discriminateur sonore.
Limitations:
Les performances de la méthode proposée peuvent être limitées à certains paramètres de distillation VC basés sur la diffusion.
Des recherches supplémentaires sont nécessaires sur les performances de généralisation à d’autres modèles ou ensembles de données de synthèse vocale et de conversion vocale.
Peut dépendre des performances du vocodeur pré-entraîné.
👍