본 논문은 텍스트 기반의 감정적 동적인 3D 얼굴 아바타 생성(Emo3D) 문제를 다룬다. 기존 연구의 부족함을 인지하고, Emo3D를 텍스트-3D 표정 매핑(T3DEM)과 3D 아바타 렌더링(3DAR) 두 단계로 나누어 접근한다. T3DEM 단계의 핵심 과제인 표정 다양성, 감정-내용 일관성, 표정 유연성을 해결하기 위해 대규모 고품질 데이터셋 EmoAva (15,000개의 텍스트-3D 표정 매핑)을 제시하고, 이를 평가하기 위한 다양한 지표를 개발한다. T3DEM을 위한 모델로는 지속적인 텍스트-표정 생성기를 제안하며, 이는 자기회귀 조건부 변분 오토인코더에 잠재적 시간적 주의 메커니즘과 표정별 주의 메커니즘을 적용한다. 3DAR 단계에서는 미세 표정과 감정 상태 간의 매끄러운 전환을 위해 전역 정보 메커니즘을 3D 가우시안 표현에 통합한 GiGA (Globally-informed Gaussian Avatar) 모델을 제시한다.