Visual Prompting for One-shot Controllable Video Editing without Inversion
Created by
Haebom
저자
Zhengbo Zhang, Yuxi Zhou, Duo Peng, Joo-Hwee Lim, Zhigang Tu, De Wen Soh, Lin Geng Foo
개요
본 논문은 사용자가 첫 번째 프레임에 적용한 편집을 이후 프레임에도 일관되게 적용하는 one-shot controllable video editing (OCVE) 문제를 다룬다. 기존 방법들은 DDIM inversion을 사용하여 소스 프레임을 잠재 노이즈로 변환한 후, 사용자 편집된 첫 번째 프레임을 조건으로 사전 훈련된 확산 모델에 입력하여 편집된 비디오를 생성한다. 하지만 DDIM inversion 과정에서 누적되는 오류로 인해 잠재 노이즈가 소스 프레임을 정확하게 재구성하지 못하고, 결과적으로 생성된 편집 프레임의 콘텐츠 일관성이 저하되는 문제가 발생한다. 본 논문에서는 visual prompting 기반의 새로운 관점을 통해 DDIM inversion 과정을 제거하고, 콘텐츠 일관성 샘플링(CCS)과 시간적 콘텐츠 일관성 샘플링(TCS)을 제안하여 생성된 편집 프레임과 소스 프레임 간의 콘텐츠 일관성 및 편집 프레임 간의 시간적 일관성을 보장한다. 광범위한 실험을 통해 제안된 방법의 효과를 검증하였다.
시사점, 한계점
•
시사점:
◦
DDIM inversion의 오류 누적 문제를 해결하여 OCVE의 콘텐츠 일관성을 향상시켰다.
◦
Visual prompting 기반의 새로운 OCVE 접근 방식을 제시하였다.
◦
콘텐츠 일관성 샘플링(CCS) 및 시간적 콘텐츠 일관성 샘플링(TCS)을 통해 시간적 및 콘텐츠적 일관성을 모두 확보하였다.