Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

QR-VC : Exploitation des résidus de quantification pour le démêlage linéaire dans la conversion vocale Zero-Shot

Created by
  • Haebom

Auteur

Youngjun Sim, Jinsung Yoon, Wooyeol Jeong, Young-Joo Suh

Contour

Cet article présente une technique de conversion vocale « zero-shot » qui convertit les composantes locuteur de la parole d'entrée en composantes locuteur cible sans entraînement supplémentaire, en utilisant un seul énoncé de référence. Des recherches antérieures se sont concentrées sur l'extraction de représentations de contenu de haute qualité et la suppression des informations locuteur à l'aide de fonctionnalités d'apprentissage auto-supervisé et de quantification K-means. Cependant, ce processus entraîne souvent la perte d'informations phonétiques et prosodiques fines, ce qui dégrade l'intelligibilité et la rétention prosodique. Cet article présente une nouvelle méthode qui sépare efficacement les informations locuteur des informations phonétiques et prosodiques en tenant compte des caractéristiques temporelles grâce aux résidus de quantification. En utilisant uniquement la quantification K-means et la projection linéaire, nous obtenons une séparation simple mais efficace sans structures complexes ni apprentissage supervisé explicite, et permettons une conversion vocale de haute qualité en utilisant uniquement la perte de reconstruction. Les résultats expérimentaux démontrent que le modèle proposé surpasse les méthodes existantes sur les mesures subjectives et objectives, améliorant l'intelligibilité, la similarité entre locuteurs et la rétention prosodique.

Takeaways, Limitations

Takeaways:
Une nouvelle méthode permettant d'améliorer les performances de conversion de la parole en utilisant des résidus de quantification K-means est présentée.
Conversion vocale de haute qualité sans structures complexes ni apprentissage supervisé explicite.
Amélioration des performances en termes de clarté, de similarité des locuteurs et de rétention de la prosodie.
Démonstration de l'efficacité du module Linear Disentangler.
Limitations:
Des recherches supplémentaires sont nécessaires sur les performances de généralisation de la méthode proposée.
Une évaluation des performances sur divers ensembles de données linguistiques et vocales est nécessaire.
Il existe un risque de dégradation des performances en raison des limitations de la quantification K-means.
👍