Sign In

Learning Disentangled Speech- and Expression-Driven Blendshapes for 3D Talking Face Animation

Created by
  • Haebom
Category
Empty

저자

Yuxiang Mao, Zhijie Zhang, Zhiheng Zhang, Jiawei Liu, Chen Zeng, Shihong Xia

개요

본 논문은 AI 생성 콘텐츠(AIGC)의 발전에 따라 중요성이 커지고 있는 감정 표현이 가능한 3D 얼굴 애니메이션 생성에 대한 연구를 제시한다. 기존 연구의 한계점인 감정 표현이 가능한 3D 말하는 얼굴 데이터 부족 문제를 해결하기 위해, 음성과 감정을 선형 가산 문제로 모델링한다. 중립 표정의 3D 말하는 얼굴 데이터셋(VOCAset)과 3D 표정 시퀀스 데이터셋(Florence4D)을 활용하여 음성과 감정에 의해 구동되는 블렌드셰이프를 학습한다. 두 종류의 블렌드셰이프 간의 분리를 장려하는 희소성 제약 손실을 도입하여, 3D 가우시안 아바타의 애니메이션을 가능하게 한다. 실험 결과, 정확한 립싱크를 유지하면서 지정된 표정으로 말하는 얼굴을 자연스럽게 생성하며, 기존 방법보다 우수한 감정 표현력을 달성함을 확인했다.

시사점, 한계점

시사점:
음성과 감정을 결합한 3D 얼굴 애니메이션 생성 모델 제시.
데이터 희소성 문제를 해결하기 위해 다양한 데이터셋을 활용.
블렌드셰이프 분리를 위한 희소성 제약 손실 도입.
정량적, 정성적 실험 및 인지 연구를 통해 방법론의 우수성 입증.
3D 가우시안 아바타 애니메이션을 위한 FLAME 모델 파라미터 매핑 지원.
한계점:
구체적인 한계점은 논문에 명시되지 않음. (논문 요약에 포함되지 않음)
👍