본 논문은 음성 기반 3D 얼굴 애니메이션 분야에서 동적 텍스처의 중요성을 강조하며, 고해상도 4D 데이터셋 TexTalk4D를 소개합니다. TexTalk4D는 100명의 피험자로부터 얻은 100분 분량의 오디오 동기화 메쉬와 8K 해상도의 상세한 동적 텍스처를 포함합니다. 이 데이터셋을 기반으로, 논문은 동작과 텍스처 간의 상관관계를 탐구하고, 음성으로부터 얼굴 동작과 동적 텍스처를 동시에 생성하는 확산 기반 프레임워크 TexTalker를 제안합니다. 또한, 다양한 텍스처 및 동작 스타일의 복잡성을 포착하기 위한 새로운 피벗 기반 스타일 주입 전략을 제시하여 분리된 제어를 가능하게 합니다. TexTalker는 음성과 동기화된 얼굴 동작과 동적 텍스처를 생성하는 최초의 방법으로, 기존 방법보다 얼굴 동작 합성 성능이 우수하며, 기저 얼굴 움직임과 일관된 사실적인 텍스처를 생성합니다.