Daily Arxiv

전 세계에서 발간되는 인공지능 관련 논문을 정리하는 페이지 입니다.
본 페이지는 Google Gemini를 활용해 요약 정리하며, 비영리로 운영 됩니다.
논문에 대한 저작권은 저자 및 해당 기관에 있으며, 공유 시 출처만 명기하면 됩니다.

FrameBridge: Improving Image-to-Video Generation with Bridge Models

Created by
  • Haebom

저자

Yuji Wang, Zehua Chen, Xiaoyu Chen, Yixiang Wei, Jun Zhu, Jianfei Chen

개요

본 논문은 이미지-비디오 생성(I2V)에서 확산 모델의 한계점을 해결하기 위해 FrameBridge를 제시합니다. 기존 확산 모델의 노이즈-데이터 생성 과정이 I2V 작업과 불일치하여 생성 품질이 저하되는 문제를 해결하고자, 프레임-투-프레임 생성 과정을 데이터-투-데이터 생성 과정 기반의 브리지 모델로 모델링하여 입력 이미지의 정보를 최대한 활용하고 생성 과정과 I2V 작업 간의 일관성을 향상시킵니다. 또한, I2V 모델 학습의 두 가지 일반적인 설정을 위한 두 가지 새로운 기법인 SNR-Aligned Fine-tuning (SAF)과 neural prior를 제안합니다. SAF는 사전 학습된 확산 기반 텍스트-비디오(T2V) 모델을 활용할 수 있도록 확산 모델을 브리지 모델로 미세 조정하는 최초의 시도이며, neural prior는 처음부터 학습할 때 FrameBridge의 합성 품질을 향상시킵니다. WebVid-2M과 UCF-101에 대한 실험 결과, FrameBridge가 확산 모델 대비 우수한 품질을 보임을 보여주며 (MSR-VTT에서 제로샷 FVD 95 대 192, UCF-101에서 비제로샷 FVD 122 대 171), 제안된 SAF와 neural prior의 장점을 입증합니다.

시사점, 한계점

시사점:
이미지-비디오 생성(I2V)에서 확산 모델의 한계를 극복하는 새로운 브리지 모델 FrameBridge 제시
데이터-투-데이터 생성 과정을 활용하여 I2V 작업과의 일관성 향상 및 생성 품질 개선
사전 학습된 T2V 모델을 활용 가능하게 하는 SNR-Aligned Fine-tuning (SAF) 기법 제안
처음부터 학습 시 생성 품질을 향상시키는 neural prior 기법 제안
WebVid-2M 및 UCF-101 데이터셋에서 기존 확산 모델 대비 우수한 성능 검증
한계점:
본 논문에서 제시된 방법의 일반화 성능에 대한 추가적인 연구 필요
다양한 데이터셋 및 I2V 작업에 대한 추가적인 실험 필요
SAF와 neural prior의 효과에 대한 더욱 심층적인 분석 필요
👍