Any-to-Bokeh: Arbitrary-Subject Video Refocusing with Video Diffusion Model
Created by
Haebom
저자
Yang Yang, Siming Zheng, Qirui Yang, Jinwei Chen, Boxi Wu, Xiaofei He, Deng Cai, Bo Li, Peng-Tao Jiang
개요
본 논문은 딥러닝 기반의 비디오 보케 렌더링을 위한 새로운 프레임워크를 제안한다. 기존 이미지 기반 방법의 시간적 깜빡임 문제와 비디오 편집 방법의 초점면 및 보케 강도 제어 부족 문제를 해결하기 위해, 저자들은 시간적으로 일관되고 깊이를 인지하는 비디오 보케 렌더링을 위한 원스텝 디퓨전 프레임워크를 개발했다. 이 프레임워크는 초점면에 적응된 멀티플레인 이미지(MPI) 표현을 사용하여 비디오 디퓨전 모델을 조건화하고 사전 훈련된 백본으로부터 강력한 3D 정보를 활용한다. 시간적 안정성, 깊이 견고성 및 세부 정보 보존을 위해 점진적 훈련 전략을 도입했다. 합성 및 실제 벤치마크 실험에서 기존 기준선을 능가하는 우수한 시간적 일관성, 공간적 정확성 및 제어 가능성을 입증했다.
시사점, 한계점
•
시사점:
◦
시간적 일관성, 공간적 정확성, 제어 가능성을 향상시킨 비디오 보케 생성의 새로운 기준 제시