Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

KeyFace: Expressive Audio-Driven Facial Animation for Long Sequences via KeyFrame Interpolation

Created by
  • Haebom
Category
Empty

저자

Antoni Bigata, Micha{\l} Stypu{\l}kowski, Rodrigo Mira, Stella Bounareli, Konstantinos Vougioukas, Zoe Landgraf, Nikita Drobyshev, Maciej Zieba, Stavros Petridis, Maja Pantic

개요

오디오 기반 얼굴 애니메이션 방법은 짧은 영상에서는 인상적인 결과를 보여주지만, 긴 영상으로 확장될 경우 오류 누적과 정체성 변화 문제가 발생합니다. 기존 방법들은 외부 공간 제어를 통해 이를 완화하려고 시도하지만, 장기적인 일관성은 향상시키는 반면 동작의 자연스러움은 저하시킵니다. 본 논문에서는 이러한 문제를 해결하기 위해 두 단계 확산 기반 프레임워크인 KeyFace를 제안합니다. 첫 번째 단계에서는 오디오 입력과 정체성 프레임을 조건으로 낮은 프레임 속도로 주요 프레임을 생성하여 장기간에 걸쳐 중요한 얼굴 표정과 움직임을 포착합니다. 두 번째 단계에서는 보간 모델이 주요 프레임 간의 간격을 채워 부드러운 전환과 시간적 일관성을 보장합니다. 현실감을 더욱 높이기 위해 연속적인 감정 표현을 통합하고 웃음이나 한숨과 같은 다양한 비언어적 발성(NSV)을 처리합니다. 또한 입술 동기화와 NSV 생성을 평가하기 위한 두 가지 새로운 평가 지표를 제시합니다. 실험 결과, KeyFace는 NSV와 연속적인 감정을 성공적으로 포함하여 장기간에 걸쳐 자연스럽고 일관된 얼굴 애니메이션을 생성하는 데 있어 최첨단 방법보다 우수한 성능을 보여줍니다.

시사점, 한계점

시사점:
오디오 기반 장시간 얼굴 애니메이션에서 오류 누적 및 정체성 변화 문제를 효과적으로 해결하는 새로운 방법 제시.
낮은 프레임 레이트의 주요 프레임 생성과 보간 모델을 통한 효율적인 시간적 일관성 확보.
비언어적 발성(NSV) 및 연속적인 감정 표현을 고려하여 자연스러운 애니메이션 생성.
입술 동기화 및 NSV 생성 평가를 위한 새로운 지표 제안.
기존 방법들보다 우수한 성능을 실험적으로 검증.
한계점:
제안된 방법의 계산 비용 및 복잡도에 대한 분석 부족.
다양한 얼굴 특징과 표정에 대한 일반화 성능에 대한 추가 연구 필요.
제안된 평가 지표의 객관성 및 신뢰성에 대한 추가 검증 필요.
👍