본 논문은 실세계 비디오 초해상화(Real-VSR)에서 시간적 일관성을 유지하면서 풍부한 공간적 세부 사항을 재현하는 문제를 해결하기 위해, 사전 훈련된 생성 모델, 특히 Stable Diffusion (SD)을 활용하는 새로운 접근 방식을 제안한다. DLoRAL(Dual LoRA Learning)이라는 패러다임을 제안하여, SD 기반의 한 단계 확산 모델을 훈련시켜 현실적인 프레임 디테일과 시간적 일관성을 동시에 달성한다. 이를 위해 Cross-Frame Retrieval (CFR) 모듈을 사용하여 프레임 간 정보를 집계하고, Consistency-LoRA (C-LoRA)를 훈련하여 열화된 입력으로부터 견고한 시간적 표현을 학습한다. C-LoRA 학습 후 CFR 및 C-LoRA 모듈을 고정하고, Detail-LoRA (D-LoRA)를 훈련하여 공간적 세부 사항을 향상시키는 동시에 C-LoRA에 의해 정의된 시간적 공간에 맞춰 시간적 일관성을 유지한다. 이 두 단계는 반복적으로 최적화되며, 일관성 있고 디테일이 풍부한 출력을 제공한다. 추론 시 두 LoRA 브랜치는 SD 모델에 병합되어 단일 확산 단계에서 효율적이고 고품질의 비디오 복원을 가능하게 한다.