Cafe-Talk: Generating 3D Talking Face Animation with Multimodal Coarse- and Fine-grained Control
Created by
Haebom
Category
Empty
저자
Hejia Chen, Haoxian Zhang, Shoulong Zhang, Xiaoqiang Liu, Sisi Zhuang, Yuan Zhang, Pengfei Wan, Di Zhang, Shuai Li
개요
본 논문은 음성 기반 3D 말하는 얼굴 생성 모델인 Cafe-Talk를 제안합니다. 기존 방법들이 이산적인 감정 레이블을 사용하여 전역적으로 표정을 제어하는 한계를 극복하고자, Cafe-Talk는 조잡하고 세밀한 다중 모달 제어 조건을 동시에 통합합니다. 다중 조건의 얽힘 문제를 해결하기 위해, 두 단계 학습 파이프라인을 사용합니다. 먼저 음성 오디오와 조잡한 조건만으로 모델을 학습하고, 그 다음 행동 단위(AU)로 표현된 세밀한 제어 지시를 점진적으로 추가하여 음성-입술 동기화 저하를 방지합니다. 세밀한 조건의 우위를 확보하기 위해 스왑-레이블 학습 메커니즘을 설계하고, 마스크 기반 CFG 기법을 통해 세밀한 제어의 발생과 강도를 조절합니다. 또한, 자연어 사용자 입력을 가능하게 하고 다중 모달 제어를 지원하기 위해 텍스트 기반 검출기를 도입합니다. 실험 결과, Cafe-Talk는 최첨단의 입술 동기화 및 표현력 성능을 달성하고 사용자 연구에서 세밀한 제어에 대한 높은 수용도를 보였습니다.
시사점, 한계점
•
시사점:
◦
음성 및 세밀한 제어 조건을 모두 통합하여 자연스럽고 표현력 있는 3D 말하는 얼굴 생성을 가능하게 함.
◦
두 단계 학습 파이프라인과 스왑-레이블 학습 메커니즘을 통해 다중 조건의 얽힘 문제 해결.
◦
마스크 기반 CFG 기법과 텍스트 기반 검출기를 통해 사용자 제어의 유연성 및 편의성 향상.
◦
최첨단의 입술 동기화 및 표현력 성능 달성.
◦
사용자 연구를 통해 세밀한 제어에 대한 높은 수용도 확인.
•
한계점:
◦
두 단계 학습 파이프라인은 계산 비용이 증가할 수 있음.
◦
세밀한 제어의 정확도는 사용되는 AU의 정확성에 의존적일 수 있음.
◦
텍스트 기반 검출기의 성능은 텍스트-AU 정렬의 정확성에 영향을 받음.
◦
현재는 제시된 특정 AU에 국한된 세밀한 제어를 제공하며, 더욱 다양하고 복잡한 표정 제어에는 추가적인 연구가 필요할 수 있음.