Sign In

Towards High-fidelity 3D Talking Avatar with Personalized Dynamic Texture

Created by
  • Haebom
Category
Empty

저자

Xuanchen Li, Jianyu Wang, Yuhao Cheng, Yikun Zeng, Xingyu Ren, Wenhan Zhu, Weiming Zhao, Yichao Yan

개요

본 논문은 음성 기반 3D 얼굴 애니메이션 분야에서 동적 텍스처의 중요성을 강조하며, 고해상도 4D 데이터셋 TexTalk4D를 소개합니다. TexTalk4D는 100명의 피험자로부터 얻은 100분 분량의 오디오 동기화 메쉬와 8K 해상도의 상세한 동적 텍스처를 포함합니다. 이 데이터셋을 기반으로, 논문은 동작과 텍스처 간의 상관관계를 탐구하고, 음성으로부터 얼굴 동작과 동적 텍스처를 동시에 생성하는 확산 기반 프레임워크 TexTalker를 제안합니다. 또한, 다양한 텍스처 및 동작 스타일의 복잡성을 포착하기 위한 새로운 피벗 기반 스타일 주입 전략을 제시하여 분리된 제어를 가능하게 합니다. TexTalker는 음성과 동기화된 얼굴 동작과 동적 텍스처를 생성하는 최초의 방법으로, 기존 방법보다 얼굴 동작 합성 성능이 우수하며, 기저 얼굴 움직임과 일관된 사실적인 텍스처를 생성합니다.

시사점, 한계점

시사점:
음성 기반 3D 얼굴 애니메이션에서 동적 텍스처의 중요성을 최초로 규명하고, 이를 고려한 새로운 방법론을 제시.
고해상도 4D 얼굴 데이터셋 TexTalk4D를 공개하여 향후 연구에 기여.
확산 기반 모델을 이용하여 음성으로부터 얼굴 동작과 동적 텍스처를 동시에 생성하는 TexTalker 프레임워크 제시.
피벗 기반 스타일 주입 전략을 통해 다양한 스타일의 얼굴 애니메이션 제어 가능.
기존 방법보다 사실적이고 자연스러운 얼굴 애니메이션 생성.
한계점:
데이터셋의 피험자 수와 음성 데이터 길이가 제한적일 수 있음. (100명, 100분)
TexTalker의 성능 평가가 주로 정성적 평가에 의존할 가능성이 있음.
다양한 환경 및 조건에서의 일반화 성능에 대한 추가적인 연구 필요.
실시간 애니메이션 생성에 대한 성능 평가 부족.
👍