IMTalker는 단일 이미지로부터 현실적인 말하는 초상화를 생성하는 새로운 프레임워크입니다. 기존 방법의 한계점을 극복하기 위해, 명시적인 광학 흐름과 국부적 워핑 대신, 암묵적인 모션 전송을 통해 효율적이고 고품질의 말하는 얼굴 생성을 달성합니다. 핵심 아이디어는 교차 어텐션 메커니즘을 사용하여 통합된 잠재 공간 내에서 모션 불일치와 신원 정렬을 암묵적으로 모델링하여 견고한 글로벌 모션 렌더링을 가능하게 하는 것입니다. 또한, 화자 신원 보존을 위해 모션 잠재 변수를 개인화된 공간으로 투영하는 신원 적응형 모듈을 도입하고, 오디오, 포즈 및 시선 신호로부터 생생하고 제어 가능한 암묵적 모션 벡터를 생성하는 경량 흐름 매칭 모션 생성기를 사용합니다. IMTalker는 모션 정확도, 신원 보존, 오디오-입술 동기화에서 기존 방법을 능가하며, RTX 4090 GPU에서 비디오 기반 생성 시 40 FPS, 오디오 기반 생성 시 42 FPS로 작동합니다.