본 논문은 실제 영상 초고해상도(Real-VSR)에서 시간적 일관성을 유지하면서 풍부한 공간적 세부 정보를 재현하는 어려움을 다룹니다. 특히 사실적인 세부 정보 합성을 위해 사전 훈련된 생성 모델(예: Stable Diffusion)을 활용할 때 더욱 어렵습니다. 기존의 SD 기반 Real-VSR 방법들은 시간적 일관성을 위해 공간적 세부 정보를 희생하는 경우가 많아 최적의 화질을 얻지 못합니다. 본 논문에서는 저화질(LQ) 입력 비디오에서 손상에 강한 시간적 일관성 사전 정보를 효과적으로 추출하고 추출된 일관성 사전 정보를 유지하면서 비디오 세부 정보를 향상시키는 방법이 핵심이라고 주장합니다. 이를 위해, 효과적인 SD 기반 단일 단계 확산 모델을 훈련하는 이중 LoRA 학습(DLoRAL) 패러다임을 제안합니다. 구체적으로, 프레임 간 보완 정보를 집계하는 Cross-Frame Retrieval (CFR) 모듈을 도입하고, 저화질 입력에서 강력한 시간적 표현을 학습하는 Consistency-LoRA (C-LoRA)를 훈련합니다. 일관성 학습 후, CFR 및 C-LoRA 모듈을 고정하고, 시간적 일관성을 유지하기 위해 C-LoRA에 의해 정의된 시간 공간과 정렬하면서 공간적 세부 정보를 향상시키는 Detail-LoRA (D-LoRA)를 훈련합니다. 두 단계는 최적화를 위해 반복적으로 번갈아 가며 일관되고 세부 정보가 풍부한 출력을 제공합니다. 추론 중에는 두 LoRA 분기가 SD 모델에 병합되어 단일 확산 단계에서 효율적이고 고품질의 비디오 복원을 가능하게 합니다. 실험 결과 DLoRAL은 정확도와 속도 모두에서 우수한 성능을 달성함을 보여줍니다.