IndexTTS2 est un modèle proposé pour surmonter les limites des modèles de synthèse vocale (TTS) autorégressifs à grande échelle existants, qui offrent un excellent naturel, mais présentent des difficultés de contrôle de la durée. Il permet un contrôle précis de la durée de la parole grâce à une spécification explicite du nombre de jetons et à un mode de génération libre avec un nombre de jetons non spécifié. Il permet également un contrôle indépendant du timbre et de l'émotion en séparant l'expression émotionnelle du sexe du locuteur. Il utilise des représentations latentes GPT pour améliorer l'intelligibilité des discours à forte charge émotionnelle, et un mécanisme d'instruction souple basé sur le réglage fin de Qwen3 simplifie le contrôle des émotions. Les résultats expérimentaux sur divers ensembles de données démontrent qu'IndexTTS2 surpasse les modèles TTS zero-shot de pointe en termes de taux d'erreur de mots, de similarité de locuteur et de fidélité émotionnelle.