Daily Arxiv

Cette page résume et organise les publications en intelligence artificielle du monde entier.
Les contenus sont synthétisés grâce à Google Gemini et le service est proposé à but non lucratif.
Les droits d'auteur des articles appartiennent à leurs auteurs ou institutions respectives ; en cas de partage, il suffit d'en mentionner la source.

IndexTTS2 : une avancée majeure dans la synthèse vocale auto-régressive à durée contrôlée et expressive des émotions

Created by
  • Haebom

Auteur

Siyi Zhou, Yiquan Zhou, Yi He, Xun Zhou, Jinchao Wang, Wei Deng, Jingchen Shu

Contour

IndexTTS2 est un modèle proposé pour surmonter les limites des modèles de synthèse vocale (TTS) autorégressifs à grande échelle existants, qui offrent un excellent naturel, mais présentent des difficultés de contrôle de la durée. Il permet un contrôle précis de la durée de la parole grâce à une spécification explicite du nombre de jetons et à un mode de génération libre avec un nombre de jetons non spécifié. Il permet également un contrôle indépendant du timbre et de l'émotion en séparant l'expression émotionnelle du sexe du locuteur. Il utilise des représentations latentes GPT pour améliorer l'intelligibilité des discours à forte charge émotionnelle, et un mécanisme d'instruction souple basé sur le réglage fin de Qwen3 simplifie le contrôle des émotions. Les résultats expérimentaux sur divers ensembles de données démontrent qu'IndexTTS2 surpasse les modèles TTS zero-shot de pointe en termes de taux d'erreur de mots, de similarité de locuteur et de fidélité émotionnelle.

Takeaways, Limitations

Takeaways:
Résolution du problème du contrôle précis de la durée de la parole dans les modèles TTS basés sur l'autorégression.
Contrôle indépendant du ton et de l'émotion
Reproduction sonore et émotionnelle de haute précision dans un environnement sans prise de vue
Améliorer la clarté du discours émotionnellement expressif grâce à l'utilisation d'expressions latentes GPT.
Amélioration de la commodité du contrôle émotionnel grâce à des mécanismes d'instruction souples
Atteindre des performances de pointe sur une variété de mesures d'évaluation
Limitations:
Limitations n'est pas explicitement mentionné dans l'article. Des expériences supplémentaires ou des vérifications de performance à l'aide de divers ensembles de données pourraient être nécessaires.
👍