Sign In

KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation

Created by
  • Haebom
Category
Empty

저자

Antoni Bigata, Micha{\l} Stypu{\l}kowski, Rodrigo Mira, Stella Bounareli, Konstantinos Vougioukas, Zoe Landgraf, Nikita Drobyshev, Maciej Zieba, Stavros Petridis, Maja Pantic

개요

본 논문은 오디오 기반 얼굴 애니메이션에서 장시간 지속 시 발생하는 오류 누적 및 정체성 변화 문제를 해결하기 위해 KeyFace라는 새로운 두 단계 확산 기반 프레임워크를 제안합니다. KeyFace는 첫 번째 단계에서 낮은 프레임 속도로 오디오 입력과 정체성 프레임을 조건으로 주요 프레임을 생성하여 장시간에 걸친 필수적인 얼굴 표정과 움직임을 포착합니다. 두 번째 단계에서는 보간 모델을 사용하여 주요 프레임 간의 간격을 채워 부드러운 전환과 시간적 일관성을 보장합니다. 더욱 사실적인 애니메이션을 위해 지속적인 감정 표현을 통합하고 웃음이나 한숨과 같은 다양한 비언어적 발성(NSV)을 처리합니다. 또한 입술 동기화와 NSV 생성을 평가하기 위한 두 가지 새로운 평가 지표를 제시합니다. 실험 결과, KeyFace는 기존 최첨단 방법보다 장시간에 걸쳐 자연스럽고 일관된 얼굴 애니메이션을 생성하고 NSV와 지속적인 감정을 성공적으로 포함하는 것으로 나타났습니다.

시사점, 한계점

시사점:
오디오 기반 장시간 얼굴 애니메이션에서 오류 누적 및 정체성 변화 문제를 효과적으로 해결하는 새로운 프레임워크 제시.
낮은 프레임 레이트의 주요 프레임 생성 및 보간 모델을 통한 효율적인 연산 및 자연스러운 애니메이션 생성.
지속적인 감정 표현 및 다양한 비언어적 발성(NSV) 처리를 통한 사실적인 애니메이션 구현.
입술 동기화 및 NSV 생성 평가를 위한 새로운 지표 제시.
기존 최첨단 방법 대비 성능 향상.
한계점:
제안된 방법의 계산 비용 및 효율성에 대한 자세한 분석 부족.
다양한 얼굴 특징과 표정에 대한 일반화 성능에 대한 추가적인 실험 필요.
실제 환경에서의 적용 가능성 및 한계에 대한 검토 부족.
👍