Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

EmoSteer-TTS : synthèse vocale fine et sans formation, contrôlable par les émotions via le pilotage par activation

Created by
  • Haebom

Auteur

Tianxin Xie, Shan Yang, Chenxing Li, Dong Yu, Li Liu

Contour

Cet article met en évidence le contrôle émotionnel incomplet et limité des systèmes de synthèse vocale (TTS) existants et propose EmoSteer-TTS, une nouvelle méthode permettant un contrôle précis des émotions vocales (transformation, interpolation et suppression) sans apprentissage. EmoSteer-TTS modifie efficacement le ton émotionnel de la parole synthétisée en modifiant les activations internes d'un modèle TTS basé sur la correspondance de flux. Nous développons un algorithme efficace et sans apprentissage, qui inclut l'extraction des activations, la récupération des jetons émotionnels et le pilotage du temps d'inférence, le rendant ainsi compatible avec divers modèles pré-entraînés. En construisant un ensemble de données de parole émotionnelle provenant de divers locuteurs, nous dérivons des vecteurs de pilotage efficaces. Les résultats expérimentaux démontrent un contrôle précis, interprétable et continu des émotions vocales, qui surpasse les performances des technologies de pointe (SOTA). Il s'agit de la première méthode permettant d'obtenir un contrôle émotionnel continu et précis sans apprentissage.

Takeaways, Limitations_

Takeaways:
Une nouvelle méthode est présentée qui permet un contrôle précis et continu des émotions vocales sans formation.
Développement d'un algorithme efficace et facilement intégrable dans les modèles TTS existants.
A démontré d’excellentes performances sur divers modèles TTS pré-entraînés.
Fournit un contrôle émotionnel interprétable et intuitif.
Limitations:
L’efficacité de la méthode proposée peut dépendre du type spécifique de modèle TTS (basé sur la correspondance de flux).
Des recherches supplémentaires sont nécessaires sur les performances de généralisation à travers une variété d’expressions émotionnelles.
Les performances peuvent être affectées par la portée et la qualité de l’ensemble de données de discours émotionnel construit.
Une évaluation plus approfondie de la robustesse et des performances de généralisation dans les applications du monde réel est nécessaire.
👍