OMGSR: You Only Need One Mid-timestep Guidance for Real-World Image Super-Resolution
Created by
Haebom
Category
Empty
저자
Zhiqiang Wu, Zhaomang Sun, Tong Zhou, Bingtao Fu, Ji Cong, Yitong Dong, Huaqi Zhang, Xuan Tang, Mingsong Chen, Xian Wei
개요
Denoising Diffusion Probabilistic Models (DDPMs)을 활용한 One-step Real-World Image Super-Resolution (Real-ISR) 기법 제안. 저해상도 이미지의 잠재 표현을 DDPM 스케줄러의 중간 시점에 주입하는 방법을 제시하고, 신호 대 잡음비 (SNR)를 기반으로 최적의 중간 시점을 사전 계산. LoRA를 활용한 VAE 인코더를 통해 잠재 표현 정제 (LRR) 손실을 도입하여 사전 훈련된 잡음 잠재 표현을 더 잘 근사하고, LoRA를 사용하여 DDPM 기반 생성 모델의 백본을 미세 조정하여 최적의 중간 시점에서 One-step denoising 수행. OMGSR 프레임워크는 DDPM 기반 생성 모델과 DINOv3-ConvNeXt 모델을 기반으로 한 판별자를 사용하며, 구조적 인식을 위한 Dv3CD 손실을 제안. SD2.1-base를 기반으로 OMGSR-S를 개발하여, ablation study와 비교 연구를 통해 기존 기법 대비 우수한 성능을 입증.
시사점, 한계점
•
시사점:
◦
DDPM 기반 Real-ISR에서 최적의 중간 시점 주입 전략을 SNR 기반으로 제안.
◦
LoRA를 활용한 잠재 표현 정제 (LRR) 손실 도입으로 성능 향상.
◦
DINOv3-ConvNeXt 기반 판별자와 Dv3CD 손실을 활용한 새로운 GAN 기반 프레임워크 제시.