Zero-to-Hero: Zero-Shot Initialization Empowering Reference-Based Video Appearance Editing
Created by
Haebom
저자
Tongtong Su, Chengyu Wang, Jun Huang, Dongming Lu
개요
본 논문은 사용자의 요구에 따른 외관 편집이라는 비디오 편집의 핵심 과제를 다룹니다. 기존의 텍스트 기반 방법들은 사용자 의도의 모호성과 객체의 특정 측면에 대한 세밀한 제어의 제한으로 어려움을 겪습니다. 이를 극복하기 위해, 본 논문은 'Zero-to-Hero'라는 새로운 접근 방식을 제시합니다. 이는 편집 과정을 두 가지 독립적인 문제로 분리하는 참조 기반 비디오 편집에 초점을 맞춥니다. 먼저 앵커 프레임을 편집하여 사용자 요구 사항을 참조 이미지로 만족시킨 후, 해당 외관을 다른 프레임으로 일관되게 전파하는 방식입니다. 원본 프레임 내의 대응 관계를 활용하여 어텐션 메커니즘을 안내함으로써, 특히 큰 움직임을 보이는 객체를 다룰 때 메모리 효율적인 비디오 생성 모델에서 이전에 제안된 광학 흐름이나 시간 모듈보다 더욱 강력한 성능을 보입니다. 정확성과 시간적 일관성을 보장하는 견고한 제로샷 초기화를 제공합니다. 그러나 어텐션 메커니즘의 개입은 과포화 색상 및 알 수 없는 흐릿함 문제와 같은 복합적인 영상 저하를 초래합니다. Zero-Stage에서 시작하여 Hero-Stage는 비디오 복원을 위한 조건부 생성 모델을 전체적으로 학습합니다. 외관의 일관성을 정확하게 평가하기 위해 Blender를 사용하여 여러 외관을 가진 비디오 세트를 구성하여 세밀하고 결정론적인 평가를 가능하게 합니다. 제안된 방법은 최고 성능의 기준 모델보다 2.6dB 향상된 PSNR을 달성합니다. 프로젝트 페이지는 https://github.com/Tonniia/Zero2Hero 입니다.