본 논문은 양방향 대화형 상호작용을 위한 감성 인식 말하는 헤드 생성 프레임워크인 Warm Chat을 제안합니다. 대규모 언어 모델(LLM, e.g., GPT-4)의 대화 생성 능력을 활용하여 말하기와 듣기 상태 간에 원활하게 전환되는 풍부한 감성 변화를 가진 시간적으로 일관된 가상 아바타를 생성합니다. Transformer 기반 헤드 마스크 생성기를 설계하여 잠재 마스크 공간에서 시간적으로 일관된 모션 특징을 학습시키고, 대화 상태 전환을 나타내는 대화형 말하기 트리 구조를 도입하여 표현 합성을 안내합니다.