Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EAI-Avatar: Emotion-Aware Interactive Talking Head Generation

Created by
  • Haebom

저자

Haijie Yang, Zhenyu Zhang, Hao Tang, Jianjun Qian, Jian Yang

개요

본 논문은 쌍방향 대화 상황에서 감정을 인식하는 새로운 대화형 아바타 생성 프레임워크인 EAI-Avatar를 제안합니다. 기존의 단방향 초상화 애니메이션 생성 방법의 한계를 극복하고자, 대규모 언어 모델(LLM, 예: GPT-4)의 대화 생성 능력을 활용하여 시간적으로 일관성 있는 풍부한 감정 변화를 가진 가상 아바타를 생성합니다. 특히, 시간적 일관성 있는 모션 특징을 잠재 마스크 공간에서 학습하는 Transformer 기반 헤드 마스크 생성기를 설계하여 임의 길이의 시간적으로 일관된 마스크 시퀀스를 생성하여 머리 움직임을 제어합니다. 또한, 각 노드에 자식/부모/형제 노드 정보와 현재 캐릭터의 감정 상태를 포함하는 대화 상태 전이를 나타내는 상호작용 대화 트리 구조를 도입하여 역 레벨 순회를 통해 현재 노드에서 풍부한 과거 감정 단서를 추출하여 표정 합성을 안내합니다. 광범위한 실험을 통해 제안된 방법의 우수한 성능과 효과를 입증합니다.

시사점, 한계점

시사점:
쌍방향 대화 상황에서 감정적으로 풍부하고 시간적으로 일관된 대화형 아바타 생성 기술을 제시.
LLM과 Transformer 기반의 효율적인 아키텍처를 통해 실시간 또는 근실시간 애니메이션 생성 가능성 제시.
감정 정보를 효과적으로 활용하여 보다 사실적이고 몰입감 있는 아바타 생성 가능.
한계점:
제안된 방법의 실시간 성능 및 확장성에 대한 추가적인 연구 필요.
다양한 감정 표현 및 대화 컨텍스트에 대한 일반화 능력 평가 및 개선 필요.
현실적인 아바타 생성을 위한 고해상도, 고품질 데이터 확보의 어려움.
LLM에 대한 의존도가 높아 LLM의 성능에 따라 아바타 생성 품질이 영향받을 수 있음.
👍