Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

SmoothSinger : un modèle de diffusion conditionnelle pour la synthèse vocale avec une architecture multi-résolution

Created by
  • Haebom

Auteur

Kehan ​​​​Sui, Jinxu Xiang, Fang Jin

Contour

Dans cet article, nous proposons SmoothSinger, un nouveau modèle de diffusion conditionnelle pour la synthèse de voix chantées naturelles de haute qualité. Contrairement au pipeline existant en deux étapes (synthétiser la parole de faible qualité puis la post-traiter à l'aide d'un vocodeur), SmoothSinger adopte un cadre unifié qui améliore directement la parole de faible qualité afin de réduire la distorsion causée par le vocodeur. Il guide le processus de débruitage via une structure à double branche utilisant une parole de référence et ajoute un chemin de suréchantillonnage basse fréquence pour mieux capturer les contours de hauteur et les dépendances spectrales à long terme. De plus, nous utilisons une parole correcte de faible qualité au lieu d'une parole de référence pour résoudre le problème de décalage temporel lors de l'apprentissage. Les résultats expérimentaux sur le jeu de données Opencpop montrent que SmoothSinger atteint des performances de pointe dans les évaluations objectives et subjectives.

Takeaways, Limitations_

Takeaways:
Un nouveau cadre intégré est présenté pour résoudre le problème de distorsion causé par l'utilisation du vocodeur, __T289255_____, dans le modèle SVS existant.
Synthèse vocale plus naturelle et expressive possible grâce à une structure à double branche et un chemin de suréchantillonnage basse fréquence utilisant la voix de référence.
Atteindre les performances SOTA sur l'ensemble de données Opencpop.
Une nouvelle méthode de formation est présentée pour résoudre le problème de décalage temporel.
Limitations:
Dépendance à l'ensemble de données Opencpop. Les performances de généralisation doivent être vérifiées sur d'autres ensembles de données.
Manque de discussion sur le coût de calcul et la complexité du modèle.
Manque d’évaluation des performances pour la synthèse de la voix chantée dans divers genres et styles musicaux.
👍