RASA: Replace Anyone, Say Anything -- A Training-Free Framework for Audio-Driven and Universal Portrait Video Editing
Created by
Haebom
Category
Empty
저자
Tianrui Pan, Lin Liu, Jie Liu, Xiaopeng Zhang, Jie Tang, Gangshan Wu, Qi Tian
개요
본 논문은 오디오 또는 비디오 스트림을 기반으로 인물 영상의 특정 속성을 수정하는 인물 영상 편집에 대한 새로운 프레임워크를 제시합니다. 기존 방법들이 입술 영역 재현에 집중하거나 모션 전이를 위해 특수한 모델을 훈련해야 하는 것과 달리, 본 논문에서 제안하는 방법은 훈련이 필요 없는 범용 인물 영상 편집 프레임워크로, 다양하고 적응력 있는 편집 전략을 제공합니다. Unified Animation Control (UAC) 메커니즘과 소스 역전잠재변수(source inversion latents)를 기반으로 시각 기반 형태 제어, 오디오 기반 말하기 제어, 프레임 간 시간 제어를 포함한 전체 인물 영상 편집을 지원합니다. 변경된 첫 번째 참조 프레임을 조건으로 인물 외형 편집, 다양한 음성을 조건으로 입술 편집, 또는 두 가지를 결합한 편집이 가능하며, 초기 참조 프레임을 조정하여 다양한 시나리오에 적용 가능합니다. 실험 결과는 입술 편집 작업에서 더 정확하고 동기화된 입술 움직임, 그리고 외형 편집 작업에서 더 유연한 모션 전이를 달성함을 보여줍니다. 데모는 https://alice01010101.github.io/RASA/ 에서 확인 가능합니다.