본 논문은 기존의 소스 이미지를 참조하여 모션을 생성하는 방식과 달리, 음성에서 직접 정보를 추출하는 새로운 접근 방식을 제안하여 음성-얼굴 생성의 주요 과제를 해결합니다. 구체적으로, 음성 조건부 확산 모델, 통계적 얼굴 사전 정보, 샘플 적응 가중 모듈을 사용하여 고품질 초상화를 생성하는 음성-얼굴 초상화 생성 단계를 거칩니다. 그 후, 입 움직임, 표정, 눈 움직임과 같은 표현적 역학을 확산 모델의 잠재 공간에 임베딩하고, 영역 강화 모듈을 사용하여 입술 동기화를 최적화하는 음성 기반 말하는 얼굴 생성 단계를 수행합니다. 고해상도 출력을 위해 사전 훈련된 Transformer 기반 이산 코드북과 이미지 렌더링 네트워크를 통합하여 비디오 프레임 세부 사항을 엔드 투 엔드 방식으로 향상시킵니다. 본 연구는 HDTF, VoxCeleb, AVSpeech 데이터 세트에서 기존 접근 방식을 능가하며, 단일 음성 입력만으로 고해상도, 고품질 말하는 얼굴 비디오를 생성할 수 있는 최초의 방법입니다.