Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

EGSTalker: Real-Time Audio-Driven Talking Head Generation with Efficient Gaussian Deformation

Created by
  • Haebom

저자

Tianheng Zhu, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng

개요

본 논문은 3D Gaussian Splatting (3DGS) 기반의 실시간 오디오 기반 말하는 머리 생성 프레임워크인 EGSTalker를 제시한다. EGSTalker는 고품질의 얼굴 애니메이션을 합성하기 위해 단 3-5분 분량의 훈련 비디오만 필요하며, 속도와 시각적 충실도를 향상시키도록 설계되었다. 이 프레임워크는 정적 Gaussian 초기화와 오디오 기반 변형의 두 단계로 구성된다. 첫 번째 단계에서는 다중 해상도 해시 삼면체와 Kolmogorov-Arnold Network (KAN)을 사용하여 공간적 특징을 추출하고 컴팩트한 3D Gaussian 표현을 구성한다. 두 번째 단계에서는 Efficient Spatial-Audio Attention (ESAA) 모듈을 제안하여 오디오 및 공간적 단서를 융합하는 동시에 KAN이 해당 Gaussian 변형을 예측한다. 광범위한 실험을 통해 EGSTalker가 최첨단 방법과 비교하여 렌더링 품질과 립싱크 정확도를 달성하는 동시에 추론 속도에서 훨씬 더 뛰어난 성능을 보임을 입증했다.

시사점, 한계점

시사점:
3DGS 기반의 실시간 말하는 머리 생성 프레임워크 개발.
짧은 훈련 시간 (3-5분)으로 고품질의 얼굴 애니메이션 생성 가능.
최첨단 방법과 유사한 렌더링 품질 및 립싱크 정확도 달성.
추론 속도에서 기존 방법보다 월등히 우수한 성능.
실시간 멀티미디어 응용 분야에 대한 잠재력.
한계점:
논문에 구체적인 한계점 언급 없음.
👍