Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

USM-VC : Atténuation des pertes de timbre grâce au bloc résiduel de mappage sémantique universel pour la conversion vocale

Created by
  • Haebom

Auteur

Na Li, Chuke Wang, Yu Gu, Zhifeng Li

Contour

Cet article propose une nouvelle méthode pour résoudre le problème de fuite de timbre en conversion vocale (VC). Les informations timbriques du locuteur source sont intégrées à la représentation du contenu, réduisant ainsi la similarité avec le locuteur cible. À cette fin, nous introduisons le bloc résiduel de correspondance sémantique universelle (USM) dans l'extracteur de contenu. Ce bloc résiduel USM se compose de deux branches pondérées. La première branche est le module de réexpression des caractéristiques du contenu (CFR), basé sur un dictionnaire sémantique universel calculé statistiquement et utilisant la parole de divers locuteurs, qui fournit une représentation du contenu sans timbre. La seconde branche est une connexion par saut vers la couche de contenu d'origine, qui fournit des informations complémentaires plus fines. Le module CFR représente chaque trame de contenu comme une combinaison linéaire pondérée d'entrées du dictionnaire afin d'obtenir une représentation du contenu sans timbre. Grâce à des expériences approfondies sur différents frameworks de VC, nous démontrons que la méthode proposée atténue efficacement la fuite de timbre et améliore significativement la similarité avec le locuteur cible.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode de conversion vocale est présentée pour résoudre efficacement le problème de fuite de tonalité.
Génération de représentations de contenu indépendantes du locuteur à l'aide d'un dictionnaire sémantique universel.
Vérification expérimentale des améliorations de performances dans divers frameworks VC.
Améliore considérablement la similarité avec le locuteur cible.
Limitations:
Dépendance à la variété et à la taille des données vocales utilisées dans la création d'un dictionnaire sémantique universel.
Ne peut pas être généralisé à des langues ou à des styles de discours spécifiques.
Des recherches supplémentaires sont nécessaires sur la complexité de calcul et la capacité de traitement en temps réel du module CFR.
👍