KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation
Created by
Haebom
Category
Empty
저자
Antoni Bigata, Micha{\l} Stypu{\l}kowski, Rodrigo Mira, Stella Bounareli, Konstantinos Vougioukas, Zoe Landgraf, Nikita Drobyshev, Maciej Zieba, Stavros Petridis, Maja Pantic
개요
오디오 기반 얼굴 애니메이션 방법은 짧은 영상에서는 인상적인 결과를 보여주지만, 긴 영상으로 확장될 경우 오류 누적과 정체성 변화 문제가 발생합니다. 기존 방법들은 외부 공간 제어를 통해 이를 완화하려고 시도하지만, 장기적인 일관성은 향상시키는 반면 동작의 자연스러움은 저하시킵니다. 본 논문에서는 이러한 문제를 해결하기 위해 두 단계 확산 기반 프레임워크인 KeyFace를 제안합니다. 첫 번째 단계에서는 오디오 입력과 정체성 프레임을 조건으로 낮은 프레임 속도로 주요 프레임을 생성하여 장기간에 걸쳐 중요한 얼굴 표정과 움직임을 포착합니다. 두 번째 단계에서는 보간 모델이 주요 프레임 간의 간격을 채워 부드러운 전환과 시간적 일관성을 보장합니다. 현실감을 더욱 높이기 위해 연속적인 감정 표현을 통합하고 웃음이나 한숨과 같은 다양한 비언어적 발성(NSV)을 처리합니다. 또한 입술 동기화와 NSV 생성을 평가하기 위한 두 가지 새로운 평가 지표를 제시합니다. 실험 결과, KeyFace는 NSV와 연속적인 감정을 성공적으로 포함하여 장기간에 걸쳐 자연스럽고 일관된 얼굴 애니메이션을 생성하는 데 있어 최첨단 방법보다 우수한 성능을 보여줍니다.
시사점, 한계점
•
시사점:
◦
오디오 기반 장시간 얼굴 애니메이션에서 오류 누적 및 정체성 변화 문제를 효과적으로 해결하는 새로운 방법 제시.