Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

IMTalker: Efficient Audio-driven Talking Face Generation with Implicit Motion Transfer

Created by
  • Haebom
Category
Empty

저자

Bo Chen, Tao Liu, Qi Chen, Xie Chen, Zilong Zheng

개요

IMTalker는 단일 이미지로부터 현실적인 말하는 초상화를 생성하는 새로운 프레임워크입니다. 기존 방법의 한계점을 극복하기 위해, 명시적인 광학 흐름과 국부적 워핑 대신, 암묵적인 모션 전송을 통해 효율적이고 고품질의 말하는 얼굴 생성을 달성합니다. 핵심 아이디어는 교차 어텐션 메커니즘을 사용하여 통합된 잠재 공간 내에서 모션 불일치와 신원 정렬을 암묵적으로 모델링하여 견고한 글로벌 모션 렌더링을 가능하게 하는 것입니다. 또한, 화자 신원 보존을 위해 모션 잠재 변수를 개인화된 공간으로 투영하는 신원 적응형 모듈을 도입하고, 오디오, 포즈 및 시선 신호로부터 생생하고 제어 가능한 암묵적 모션 벡터를 생성하는 경량 흐름 매칭 모션 생성기를 사용합니다. IMTalker는 모션 정확도, 신원 보존, 오디오-입술 동기화에서 기존 방법을 능가하며, RTX 4090 GPU에서 비디오 기반 생성 시 40 FPS, 오디오 기반 생성 시 42 FPS로 작동합니다.

시사점, 한계점

시사점:
암묵적 모션 전송을 통한 효율적이고 고품질의 말하는 얼굴 생성 달성
교차 어텐션 메커니즘을 통한 글로벌 모션 모델링
신원 적응형 모듈을 통한 화자 신원 보존
경량 흐름 매칭 모션 생성기를 통한 제어 가능한 모션 생성
기존 방법 대비 향상된 성능 (모션 정확도, 신원 보존, 오디오-입술 동기화)
높은 효율성 (40-42 FPS)
코드 및 사전 훈련된 모델 공개 예정
한계점:
논문에 구체적인 한계점 언급 없음 (향후 연구에서 밝혀질 수 있음)
👍