Cet article propose EmoVoice, un nouveau modèle de synthèse vocale capable de contrôler l'expression émotionnelle. EmoVoice s'appuie sur un modèle de langage à grande échelle (MLH) pour permettre un contrôle libre et granulaire des émotions en langage naturel. De plus, inspiré des techniques de chaîne de pensée (CdP) et de chaîne de modalité (CdM), il améliore la cohérence du contenu en concevant une variante de renforcement des phonèmes qui génère des jetons phonémiques et audio en parallèle. Nous présentons également EmoVoice-DB, un ensemble de données émotionnelles en anglais de haute qualité, d'une durée de 40 heures, contenant des discours expressifs, des étiquettes émotionnelles détaillées et des descriptions en langage naturel. EmoVoice atteint des performances de pointe sur l'ensemble de tests anglais EmoVoice-DB en utilisant uniquement des données d'entraînement synthétiques, et sur l'ensemble de tests chinois Secap en utilisant nos propres données. De plus, nous étudions la fiabilité des mesures d'évaluation émotionnelle existantes et leur adéquation avec les préférences perceptuelles humaines, et évaluons le discours émotionnel à l'aide de GPT-4o-audio et Gemini, deux LLM multimodaux de pointe. L'ensemble de données, le code, les points de contrôle et les exemples de démonstration sont disponibles sur GitHub.