Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Conversion vocale Zero-Shot via un ensemble de timbres sensible au contenu et une correspondance de flux conditionnelle

Created by
  • Haebom

Auteur

Yu Pan, Yuguang Yang, Jixun Yao, Lei Ma, Jianjun Zhao

Contour

Cet article propose le modèle d'efficacité de transformation computationnelle (CTEFM-VC) pour relever les défis liés à la sécurisation de la similarité et du naturel des locuteurs dans la conversion vocale à zéro coup (VC). Le CTEF-VC décompose la parole en contenu et en timbre et reconstruit le spectrogramme Mel de la parole source à l'aide d'un modèle de correspondance de flux conditionnel. Plus précisément, il introduit une modélisation d'ensemble de timbres sensible au contexte et une fonction de perte de timbre basée sur la similarité structurelle afin d'améliorer les performances de modélisation du naturel et du timbre de la parole générée. Un module d'attention croisée, intégrant de manière adaptative diverses intégrations de vérification du locuteur, exploite efficacement le contenu source et les éléments du timbre cible. Les résultats expérimentaux montrent que le CTEFM-VC surpasse significativement les systèmes de VC à zéro coup de pointe existants, atteignant des performances de pointe en matière de similarité, de naturel et d'intelligibilité des locuteurs.

Takeaways, Limitations

Takeaways:
Nous présentons un nouveau cadre, CTEFM-VC, qui améliore considérablement la similarité et le naturel des locuteurs dans la conversion de la parole à zéro coup.
Amélioration des performances via la modélisation d'ensemble de timbres sensible au contexte et la fonction de perte de timbre basée sur la similarité structurelle.
Utilisation efficace de diverses intégrations de vérification des locuteurs.
Performances supérieures par rapport aux modèles de pointe existants.
Limitations:
L’article manque de références spécifiques à Limitations ou aux orientations de recherche futures.
Une description détaillée du dispositif expérimental et de l’ensemble de données est requise.
Il peut y avoir un biais en faveur de certaines langues ou données vocales.
👍