본 논문은 쌍방향 대화 상황에서 감정을 인식하는 새로운 대화형 아바타 생성 프레임워크인 EAI-Avatar를 제안합니다. 기존의 단방향 초상화 애니메이션 생성 방법의 한계를 극복하고자, 대규모 언어 모델(LLM, 예: GPT-4)의 대화 생성 능력을 활용하여 시간적으로 일관성 있는 풍부한 감정 변화를 가진 가상 아바타를 생성합니다. 특히, 시간적 일관성 있는 모션 특징을 잠재 마스크 공간에서 학습하는 Transformer 기반 헤드 마스크 생성기를 설계하여 임의 길이의 시간적으로 일관된 마스크 시퀀스를 생성하여 머리 움직임을 제어합니다. 또한, 각 노드에 자식/부모/형제 노드 정보와 현재 캐릭터의 감정 상태를 포함하는 대화 상태 전이를 나타내는 상호작용 대화 트리 구조를 도입하여 역 레벨 순회를 통해 현재 노드에서 풍부한 과거 감정 단서를 추출하여 표정 합성을 안내합니다. 광범위한 실험을 통해 제안된 방법의 우수한 성능과 효과를 입증합니다.