En este artículo, señalamos las deficiencias de los métodos existentes para la generación de rostros parlantes emocionales basados en texto y proponemos un nuevo marco, "Pensar antes de dibujar", para superarlas. "Pensar antes de dibujar" aprovecha la Cadena de Pensamiento (CoT) para transformar etiquetas abstractas de emociones en descripciones del movimiento muscular facial con base fisiológica, y mejora la dinámica de las microexpresiones mediante una estrategia de eliminación de ruido progresivamente guiada con un mecanismo de "localización global de la emoción - control muscular local", logrando así expresiones emocionales naturales. Logramos un rendimiento de vanguardia en los benchmarks MEAD y HDTF, y también presentamos un nuevo conjunto de datos de imágenes de retrato para evaluar su capacidad de generación de imágenes sin disparos.