KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation
Created by
Haebom
Category
Empty
저자
Antoni Bigata, Micha{\l} Stypu{\l}kowski, Rodrigo Mira, Stella Bounareli, Konstantinos Vougioukas, Zoe Landgraf, Nikita Drobyshev, Maciej Zieba, Stavros Petridis, Maja Pantic
개요
본 논문은 오디오 기반 얼굴 애니메이션에서 장시간 지속 시 발생하는 오류 누적 및 정체성 변화 문제를 해결하기 위해 KeyFace라는 새로운 두 단계 확산 기반 프레임워크를 제안합니다. KeyFace는 첫 번째 단계에서 낮은 프레임 속도로 오디오 입력과 정체성 프레임을 조건으로 주요 프레임을 생성하여 장시간에 걸친 필수적인 얼굴 표정과 움직임을 포착합니다. 두 번째 단계에서는 보간 모델을 사용하여 주요 프레임 간의 간격을 채워 부드러운 전환과 시간적 일관성을 보장합니다. 더욱 사실적인 애니메이션을 위해 지속적인 감정 표현을 통합하고 웃음이나 한숨과 같은 다양한 비언어적 발성(NSV)을 처리합니다. 또한 입술 동기화와 NSV 생성을 평가하기 위한 두 가지 새로운 평가 지표를 제시합니다. 실험 결과, KeyFace는 기존 최첨단 방법보다 장시간에 걸쳐 자연스럽고 일관된 얼굴 애니메이션을 생성하고 NSV와 지속적인 감정을 성공적으로 포함하는 것으로 나타났습니다.
시사점, 한계점
•
시사점:
◦
오디오 기반 장시간 얼굴 애니메이션에서 오류 누적 및 정체성 변화 문제를 효과적으로 해결하는 새로운 프레임워크 제시.
◦
낮은 프레임 레이트의 주요 프레임 생성 및 보간 모델을 통한 효율적인 연산 및 자연스러운 애니메이션 생성.
◦
지속적인 감정 표현 및 다양한 비언어적 발성(NSV) 처리를 통한 사실적인 애니메이션 구현.