본 논문은 시간적 일관성을 유지하는 비디오-투-비디오 생성을 위한 새로운 비디오 확산 프레임워크를 제안합니다. 기존의 확산 모델 훈련 목표에 시간적으로 일관된 노이즈를 적용하여, 특별한 모듈이나 추가적인 제약 없이 일관된 비디오 프레임을 생성합니다. 이 방법은 입력 비디오와 노이즈에 대한 공간 변환에 대해 모델이 등변환성을 갖도록 유도하여, 입력 비디오의 움직임 패턴을 더 잘 따르고 정렬된 움직임과 고품질 프레임을 생성합니다. 또한, 3D 메시에 텍스처로 노이즈를 부착하여 3D 일관성을 보장함으로써 3D 일관성 있는 비디오 생성으로 확장합니다. 실험 결과, 제안된 방법은 동작 정렬, 3D 일관성 및 비디오 품질 면에서 최첨단 기준 모델을 능가하며, 실제로는 몇 번의 샘플링 단계만 필요함을 보여줍니다.