Dans cet article, nous soulignons les lacunes des méthodes existantes en matière de génération de têtes parlantes émotionnelles à partir de textes et proposons un nouveau cadre, Think-Before-Draw, pour les surmonter. Think-Before-Draw s'appuie sur la chaîne de pensée (CoT) pour transformer les étiquettes émotionnelles abstraites en descriptions physiologiques des mouvements des muscles faciaux, et améliore la dynamique des micro-expressions grâce à une stratégie de débruitage progressivement guidée avec un mécanisme de « localisation globale des émotions – contrôle musculaire local » pour obtenir des expressions émotionnelles naturelles. Nous obtenons des performances de pointe sur les benchmarks MEAD et HDTF, et présentons également un nouveau jeu de données d'images de portraits pour évaluer sa capacité de génération « zero shot ».