Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

Spotlight-TTS : mise en valeur du style grâce à l'extraction de style sensible à la voix et à l'ajustement de la direction du style pour une synthèse vocale expressive

Created by
  • Haebom

Auteur

Nam-Gyu Kim, Deok-Hyeon Cho, Seung-Bin Kim, Seong-Whan Lee

Contour

Dans cet article, nous proposons Spotlight-TTS pour relever les défis de la synthèse vocale expressive de haute qualité, en nous appuyant sur des études récentes suggérant diverses méthodes basées sur l'intégration de styles extraits de la parole de référence dans la synthèse vocale expressive (TTS). Spotlight-TTS met exclusivement l'accent sur les styles grâce à l'extraction et à l'ajustement de la direction du style. L'extraction de styles basée sur la parole se concentre sur les segments sonores présentant une pertinence stylistique élevée tout en maintenant la continuité entre les différents segments afin d'améliorer l'expressivité. De plus, elle améliore la qualité vocale en ajustant la direction du style extrait et en l'intégrant de manière optimale au modèle TTS. Les résultats expérimentaux montrent que Spotlight-TTS surpasse les modèles de base en termes d'expressivité, de qualité vocale globale et de transférabilité du style, et ses échantillons de parole sont accessibles au public.

Takeaways, Limitations

Takeaways:
L'extraction du style de reconnaissance vocale et l'ajustement de la direction du style offrent la possibilité d'une synthèse vocale expressive de haute qualité.
Améliorer l'expressivité et la qualité vocale des modèles TTS existants
Excellente transférabilité de style
Facilité de validation des résultats de recherche grâce à des échantillons audio accessibles au public
Limitations:
Absence de mention explicite de __T268063_____ présenté dans l'article
L'absence de description détaillée de l'environnement expérimental et de l'ensemble de données nécessite un examen de la généralisabilité
Dépendance possible à des données linguistiques ou vocales spécifiques
👍