본 논문은 텍스트 기반 감정적 토킹 헤드 생성에 있어 기존 방법들의 한계점을 지적하고, 이를 극복하기 위한 새로운 프레임워크인 Think-Before-Draw를 제안합니다. Think-Before-Draw는 Chain-of-Thought (CoT)를 활용하여 추상적인 감정 레이블을 생리학적으로 근거한 얼굴 근육 움직임 설명으로 변환하고, "전체 감정 위치 파악 - 국소 근육 제어" 메커니즘을 사용하는 점진적 안내 잡음 제거 전략을 통해 미세 표정 역학을 개선함으로써 자연스러운 감정 표현을 달성합니다. MEAD와 HDTF 벤치마크에서 최첨단 성능을 달성하였으며, 제로샷 생성 능력 평가를 위한 새로운 초상화 이미지 데이터셋도 함께 제시합니다.