본 논문은 이미지-비디오 생성(I2V)에서 확산 모델의 한계점을 해결하기 위해 FrameBridge를 제시합니다. 기존 확산 모델의 노이즈-데이터 생성 과정이 I2V 작업과 불일치하여 생성 품질이 저하되는 문제를 해결하고자, 프레임-투-프레임 생성 과정을 데이터-투-데이터 생성 과정 기반의 브리지 모델로 모델링하여 입력 이미지의 정보를 최대한 활용하고 생성 과정과 I2V 작업 간의 일관성을 향상시킵니다. 또한, I2V 모델 학습의 두 가지 일반적인 설정을 위한 두 가지 새로운 기법인 SNR-Aligned Fine-tuning (SAF)과 neural prior를 제안합니다. SAF는 사전 학습된 확산 기반 텍스트-비디오(T2V) 모델을 활용할 수 있도록 확산 모델을 브리지 모델로 미세 조정하는 최초의 시도이며, neural prior는 처음부터 학습할 때 FrameBridge의 합성 품질을 향상시킵니다. WebVid-2M과 UCF-101에 대한 실험 결과, FrameBridge가 확산 모델 대비 우수한 품질을 보임을 보여주며 (MSR-VTT에서 제로샷 FVD 95 대 192, UCF-101에서 비제로샷 FVD 122 대 171), 제안된 SAF와 neural prior의 장점을 입증합니다.