본 연구는 텍스트-to-비디오 모델인 CogVideo를 이미지 복원 작업에 활용하기 위해 재설계했습니다. 구체적으로, 초해상화, 디블러링, 저조도 향상 등 다양한 시나리오에 대한 합성 데이터를 구축하고, CogVideo를 미세 조정하여 자연스러운 비디오 모션 대신 복원 궤적을 생성하도록 학습시켰습니다. 균일한 텍스트 프롬프트와 LLaVA 및 ChatGPT를 활용한 장면별 프롬프트 방식을 비교했으며, 이를 통해 모델은 시간적 진행과 복원 품질 간의 연관성을 학습하여 PSNR, SSIM, LPIPS와 같은 지각적 지표를 개선하는 시퀀스를 생성합니다. 광범위한 실험 결과, CogVideo는 공간적 디테일과 조명 일관성을 효과적으로 복원하면서 시간적 일관성을 유지했으며, ReLoBlur 데이터셋에 대한 추가 학습 없이도 실제 환경에서 우수한 제로샷 성능과 해석 가능성을 보여주었습니다.